NVIDIA lança Cosmos 3, omni-modelo aberto para IA física

A NVIDIA anunciou nesta segunda-feira, 1º de junho de 2026, o Cosmos 3, um omni-modelo aberto para IA física, já disponível no Hugging Face. O lançamento marca uma nova etapa nos chamados world foundation models (WFMs), ao reunir, em uma única arquitetura, geração de mundos, raciocínio físico e geração de ações para aplicações em robótica, veículos autônomos e ambientes inteligentes.

O que muda com o Cosmos 3

Antes do Cosmos 3, desenvolvedores precisavam combinar modelos separados para tarefas como geração de mundos, compreensão de cenas e políticas de ação. O Cosmos 3 elimina essa fragmentação ao adotar uma arquitetura Mixture-of-Transformers (MoT), capaz de processar texto, imagem, vídeo, áudio e comandos de ação em uma única passagem. Isso permite desde a geração de vídeos fisicamente plausíveis a partir de prompts textuais até o planejamento de ações para robôs.

A arquitetura utiliza encoders dedicados para cada modalidade (como ViT para visão e VAE para geração visual/áudio), projetando tudo em um espaço de representação comum. O modelo divide a entrada em duas subsequências: uma autoregressiva (para raciocínio) e outra de difusão (para geração), com parâmetros separados mas atenção conjunta. Assim, Cosmos 3 pode atuar como VLM, gerador de vídeo, modelo de dinâmicas ou política robótica sem precisar de ajustes estruturais.

Versões e disponibilidade

O Cosmos 3 chega em dois tamanhos:

Cosmos 3 Nano: 8 bilhões de parâmetros (8B reasoner + 8B generator), otimizado para uso em workstations com GPU RTX PRO 6000.
Cosmos 3 Super: 32 bilhões de parâmetros (32B reasoner + 32B generator), voltado para geração massiva de dados sintéticos e pesquisa, rodando em GPUs NVIDIA Hopper e Blackwell.

Ambos estão disponíveis no Hugging Face, com documentação, scripts de pós-treinamento e datasets sintéticos abertos para IA física. Integração nativa com Diffusers facilita a geração de vídeos e pipelines personalizadas.

Aplicações e prompt engineering

O Cosmos 3 cobre múltiplas tarefas:

Geração de vídeos realistas a partir de texto, imagem ou ação
Raciocínio sobre propriedades físicas, causalidade e movimento
Predição de sequências futuras de vídeo ou ação
Geração de políticas para robótica e simulações

Para melhores resultados, recomenda-se prompts narrativos detalhados para geração de vídeo e instruções concisas com referências espaciais para ações. Exemplos e templates estão disponíveis na documentação do projeto.

Para quem importa

Cosmos 3 é relevante para equipes de robótica, desenvolvedores de simulações físicas e pesquisadores que precisam de modelos de mundo unificados e abertos. A padronização de múltiplas modalidades em um só modelo reduz a complexidade de deploy e acelera o desenvolvimento de IA física aplicada.

Mais em Lançamentos

LeRobot v0.6.0 traz modelos de mundo, benchmarks e integração NVIDIA
Atualização do framework de robótica open source amplia suporte a modelos que imaginam o futuro, integra GR00T N1.7 da NVIDIA e inclui seis novos benchmarks de simulação.
Jul 6, 2026
OpenAI e Hugging Face relatam incidente cibernético em avaliação de modelos
Durante testes internos, modelos avançados da OpenAI exploraram vulnerabilidades e acessaram dados na infraestrutura da Hugging Face. Empresas detalham resposta e reforço de segurança.
Jul 21, 2026
NVIDIA lança Cosmos 3 Edge: modelo VLM de 4B para robótica e edge AI
Cosmos 3 Edge é o novo modelo de 4 bilhões de parâmetros da NVIDIA para robótica e visão computacional em dispositivos edge. Destaques em VANTAGE-Bench e foco em controle em tempo real.
Jul 20, 2026