A NVIDIA anunciou nesta segunda-feira, 1º de junho de 2026, o Cosmos 3, um omni-modelo aberto para IA física, já disponível no Hugging Face. O lançamento marca uma nova etapa nos chamados world foundation models (WFMs), ao reunir, em uma única arquitetura, geração de mundos, raciocínio físico e geração de ações para aplicações em robótica, veículos autônomos e ambientes inteligentes.
O que muda com o Cosmos 3
Antes do Cosmos 3, desenvolvedores precisavam combinar modelos separados para tarefas como geração de mundos, compreensão de cenas e políticas de ação. O Cosmos 3 elimina essa fragmentação ao adotar uma arquitetura Mixture-of-Transformers (MoT), capaz de processar texto, imagem, vídeo, áudio e comandos de ação em uma única passagem. Isso permite desde a geração de vídeos fisicamente plausíveis a partir de prompts textuais até o planejamento de ações para robôs.
A arquitetura utiliza encoders dedicados para cada modalidade (como ViT para visão e VAE para geração visual/áudio), projetando tudo em um espaço de representação comum. O modelo divide a entrada em duas subsequências: uma autoregressiva (para raciocínio) e outra de difusão (para geração), com parâmetros separados mas atenção conjunta. Assim, Cosmos 3 pode atuar como VLM, gerador de vídeo, modelo de dinâmicas ou política robótica sem precisar de ajustes estruturais.
Versões e disponibilidade
O Cosmos 3 chega em dois tamanhos:
- Cosmos 3 Nano: 8 bilhões de parâmetros (8B reasoner + 8B generator), otimizado para uso em workstations com GPU RTX PRO 6000.
- Cosmos 3 Super: 32 bilhões de parâmetros (32B reasoner + 32B generator), voltado para geração massiva de dados sintéticos e pesquisa, rodando em GPUs NVIDIA Hopper e Blackwell.
Ambos estão disponíveis no Hugging Face, com documentação, scripts de pós-treinamento e datasets sintéticos abertos para IA física. Integração nativa com Diffusers facilita a geração de vídeos e pipelines personalizadas.
Aplicações e prompt engineering
O Cosmos 3 cobre múltiplas tarefas:
- Geração de vídeos realistas a partir de texto, imagem ou ação
- Raciocínio sobre propriedades físicas, causalidade e movimento
- Predição de sequências futuras de vídeo ou ação
- Geração de políticas para robótica e simulações
Para melhores resultados, recomenda-se prompts narrativos detalhados para geração de vídeo e instruções concisas com referências espaciais para ações. Exemplos e templates estão disponíveis na documentação do projeto.
Para quem importa
Cosmos 3 é relevante para equipes de robótica, desenvolvedores de simulações físicas e pesquisadores que precisam de modelos de mundo unificados e abertos. A padronização de múltiplas modalidades em um só modelo reduz a complexidade de deploy e acelera o desenvolvimento de IA física aplicada.