AdaCodec propõe código visual preditivo para MLLMs de vídeo

Pesquisadores liderados por Haowen Hou apresentaram em 1º de junho de 2026 o AdaCodec, um novo método para compressão e transmissão eficiente de informações visuais em modelos multimodais de linguagem aplicados a vídeo (video MLLMs), conforme publicado no arXiv.

Reduzindo redundância temporal em vídeo

O AdaCodec parte do princípio de que vídeos contêm alta redundância temporal: quadros consecutivos compartilham objetos, cenários e disposição semelhantes. No pipeline tradicional, cada quadro é processado como uma imagem RGB independente, levando a repetição desnecessária de tokens visuais e desperdício de orçamento computacional.

A proposta do AdaCodec é transmitir um quadro completo apenas quando mudanças substanciais ocorrem. Nos intervalos, a técnica utiliza um “código visual preditivo” — um conjunto compacto de tokens (P-tokens) que descrevem apenas as alterações relevantes entre quadros, incluindo movimento e resíduos de predição. Assim, o modelo economiza significativamente no uso de tokens sem perder contexto visual relevante.

Resultados experimentais

Segundo o artigo, o AdaCodec foi testado contra o baseline per-frame RGB do Qwen3-VL-8B, mantendo o mesmo orçamento de tokens visuais. Em todos os 11 benchmarks avaliados, o AdaCodec superou o baseline. Nos testes com vídeos longos, o método usando 32 mil tokens — cerca de 1/7 do orçamento tradicional de 224 mil tokens — conseguiu resultados superiores ao baseline. Em cinco benchmarks de vídeo geral, o AdaCodec elevou a média de desempenho e reduziu substancialmente o tempo até o primeiro token gerado, de 9,26 segundos para 1,62 segundo.

Aplicações e limitações

O AdaCodec é apresentado como uma interface conceitual, não como um produto comercial imediato. O trabalho foca em validar a abordagem em contexto de pesquisa, demonstrando que compressão condicional e transmissão seletiva de quadros são estratégias eficazes para MLLMs de vídeo. Parâmetros detalhados do modelo e implementação não foram divulgados no preprint.

Para quem importa

A proposta interessa a quem desenvolve ou pesquisa MLLMs para vídeo, especialmente em aplicações sensíveis a custo computacional ou latência. O AdaCodec aponta caminhos para escalar modelos multimodais sem multiplicar custos de processamento com dados redundantes.

Mais em Lançamentos

OmniAgent propõe percepção ativa nativa para compreensão omni-modal em vídeo
Novo agente ativo para vídeo, OmniAgent, desacopla o custo de raciocínio da duração do vídeo usando ciclos iterativos e supera modelos maiores em benchmarks.
Jun 18, 2026
SciReasoner: modelo multimodal para raciocínio estrutural científico
SciReasoner, novo modelo multimodal, unifica raciocínio estrutural em proteínas, moléculas e cristais. Estado da arte em 67 de 86 benchmarks.
Jul 9, 2026
NVIDIA lança Nemotron 3.5 Content Safety com verificação multimodal e políticas customizadas
Novo modelo de safety da NVIDIA permite avaliação conjunta de texto e imagem, suporte a múltiplos idiomas e enforcement de políticas sob medida, mirando produção em escala empresarial.
Jun 5, 2026