A NVIDIA anunciou nesta segunda-feira, 1º de junho de 2026, o Cosmos 3, um omni-modelo aberto para IA física, já disponível no Hugging Face. O lançamento marca uma nova etapa nos chamados world foundation models (WFMs), ao reunir, em uma única arquitetura, geração de mundos, raciocínio físico e geração de ações para aplicações em robótica, veículos autônomos e ambientes inteligentes.

O que muda com o Cosmos 3

Antes do Cosmos 3, desenvolvedores precisavam combinar modelos separados para tarefas como geração de mundos, compreensão de cenas e políticas de ação. O Cosmos 3 elimina essa fragmentação ao adotar uma arquitetura Mixture-of-Transformers (MoT), capaz de processar texto, imagem, vídeo, áudio e comandos de ação em uma única passagem. Isso permite desde a geração de vídeos fisicamente plausíveis a partir de prompts textuais até o planejamento de ações para robôs.

A arquitetura utiliza encoders dedicados para cada modalidade (como ViT para visão e VAE para geração visual/áudio), projetando tudo em um espaço de representação comum. O modelo divide a entrada em duas subsequências: uma autoregressiva (para raciocínio) e outra de difusão (para geração), com parâmetros separados mas atenção conjunta. Assim, Cosmos 3 pode atuar como VLM, gerador de vídeo, modelo de dinâmicas ou política robótica sem precisar de ajustes estruturais.

Versões e disponibilidade

O Cosmos 3 chega em dois tamanhos:

  • Cosmos 3 Nano: 8 bilhões de parâmetros (8B reasoner + 8B generator), otimizado para uso em workstations com GPU RTX PRO 6000.
  • Cosmos 3 Super: 32 bilhões de parâmetros (32B reasoner + 32B generator), voltado para geração massiva de dados sintéticos e pesquisa, rodando em GPUs NVIDIA Hopper e Blackwell.

Ambos estão disponíveis no Hugging Face, com documentação, scripts de pós-treinamento e datasets sintéticos abertos para IA física. Integração nativa com Diffusers facilita a geração de vídeos e pipelines personalizadas.

Aplicações e prompt engineering

O Cosmos 3 cobre múltiplas tarefas:

  • Geração de vídeos realistas a partir de texto, imagem ou ação
  • Raciocínio sobre propriedades físicas, causalidade e movimento
  • Predição de sequências futuras de vídeo ou ação
  • Geração de políticas para robótica e simulações

Para melhores resultados, recomenda-se prompts narrativos detalhados para geração de vídeo e instruções concisas com referências espaciais para ações. Exemplos e templates estão disponíveis na documentação do projeto.

Para quem importa

Cosmos 3 é relevante para equipes de robótica, desenvolvedores de simulações físicas e pesquisadores que precisam de modelos de mundo unificados e abertos. A padronização de múltiplas modalidades em um só modelo reduz a complexidade de deploy e acelera o desenvolvimento de IA física aplicada.

Tags
  • #nvidia
  • #cosmos
  • #modelos abertos
  • #ia física
  • #huggingface