Pesquisadores liderados por Haowen Hou apresentaram em 1º de junho de 2026 o AdaCodec, um novo método para compressão e transmissão eficiente de informações visuais em modelos multimodais de linguagem aplicados a vídeo (video MLLMs), conforme publicado no arXiv.
Reduzindo redundância temporal em vídeo
O AdaCodec parte do princípio de que vídeos contêm alta redundância temporal: quadros consecutivos compartilham objetos, cenários e disposição semelhantes. No pipeline tradicional, cada quadro é processado como uma imagem RGB independente, levando a repetição desnecessária de tokens visuais e desperdício de orçamento computacional.
A proposta do AdaCodec é transmitir um quadro completo apenas quando mudanças substanciais ocorrem. Nos intervalos, a técnica utiliza um “código visual preditivo” — um conjunto compacto de tokens (P-tokens) que descrevem apenas as alterações relevantes entre quadros, incluindo movimento e resíduos de predição. Assim, o modelo economiza significativamente no uso de tokens sem perder contexto visual relevante.
Resultados experimentais
Segundo o artigo, o AdaCodec foi testado contra o baseline per-frame RGB do Qwen3-VL-8B, mantendo o mesmo orçamento de tokens visuais. Em todos os 11 benchmarks avaliados, o AdaCodec superou o baseline. Nos testes com vídeos longos, o método usando 32 mil tokens — cerca de 1/7 do orçamento tradicional de 224 mil tokens — conseguiu resultados superiores ao baseline. Em cinco benchmarks de vídeo geral, o AdaCodec elevou a média de desempenho e reduziu substancialmente o tempo até o primeiro token gerado, de 9,26 segundos para 1,62 segundo.
Aplicações e limitações
O AdaCodec é apresentado como uma interface conceitual, não como um produto comercial imediato. O trabalho foca em validar a abordagem em contexto de pesquisa, demonstrando que compressão condicional e transmissão seletiva de quadros são estratégias eficazes para MLLMs de vídeo. Parâmetros detalhados do modelo e implementação não foram divulgados no preprint.
Para quem importa
A proposta interessa a quem desenvolve ou pesquisa MLLMs para vídeo, especialmente em aplicações sensíveis a custo computacional ou latência. O AdaCodec aponta caminhos para escalar modelos multimodais sem multiplicar custos de processamento com dados redundantes.