O relatório V4 do Center for AI Standards and Innovation (CAISI) jogou luz sobre um desconfortável consenso: mesmo com uma leva de lançamentos de peso — DeepSeek V4, Gemma 4, Kimi K2.6, MiMo 2.5, GLM-5.1 e outros —, os modelos open-source continuam atrás dos proprietários. E, segundo a avaliação, a distância entre eles está aumentando.

Benchmarks e a nova rodada de modelos

A CAISI utilizou nove benchmarks distintos para ranquear os modelos, incluindo métricas proprietárias e públicas. O método principal foi o cálculo de Elo baseado em Item Response Theory (IRT), técnica usada para comparar modelos mesmo quando testados em conjuntos diferentes de tarefas. O DeepSeek V4, por exemplo, teve desempenho ruim em benchmarks como CTF-Archive-Diamond, PortBench (privado da CAISI) e ARC-AGI-2, o que afetou significativamente seu Elo geral. A variação nos benchmarks e nos métodos de pontuação, especialmente em tarefas como ARC-AGI-2, impactou diretamente o resultado final.

No agregado, a CAISI concluiu que o “gap” entre modelos abertos e proprietários não diminuiu com os lançamentos recentes. Pelo contrário, o abismo aumentou — e de forma mais pronunciada do que sugeriam rodadas anteriores de avaliação.

O papel da ECI e limitações dos benchmarks

Outra métrica relevante veio da Epoch AI, com o ECI (Effective Compute Index), que também usa IRT para sintetizar resultados de diversos benchmarks. O ECI mostra que o atraso dos open-source para os proprietários varia entre três e sete meses desde a primeira rodada. O gráfico do ECI, disponível no site do McNair Center, confirma essa tendência.

No entanto, tanto CAISI quanto ECI são criticados por usarem setups padronizados — muitas vezes simplificados — para comparar capacidades. Avaliações de tarefas de código, por exemplo, usam acesso restrito ao bash e laços for com orçamento fixo de tokens, sem aproveitar frameworks mais avançados como Claude Code ou OpenCode, nos quais os modelos são realmente treinados. Isso resulta em conclusões como “portar aplicações entre linguagens é impossível”, quando casos reais (como a migração do Bun de Zig para Rust, com mais de um milhão de linhas alteradas) mostram o contrário.

Lançamentos abertos em destaque

Entre os modelos lançados, destacam-se:

  • MiMo-V2.5-Pro (XiaomiMiMo): evolução consistente, com desempenho próximo ao de Kimi K2.6 e GLM-5.1 em benchmarks e uso prático.
  • Gemma 4 (Google): chega em múltiplos tamanhos, com licença Apache 2.0, removendo incertezas legais que cercavam versões anteriores.
  • Kimi K2.6 (moonshotai): foco em tarefas longas, reforçando a capacidade dos modelos abertos em manter desempenho por horas.
  • DeepSeek V4 Flash: modelo intermediário que surpreendeu, enquanto a versão Pro decepcionou em relação ao tamanho.
  • Laguna-XS.2 (Poolside): modelo de código aberto voltado para programação, com desempenho competitivo para uso local.
  • GLM-5.1 (zai-org): atualização com ganhos em tarefas de longo prazo.

Apesar do volume e da qualidade dos lançamentos, o salto em benchmarks de referência não acompanhou o ritmo dos proprietários.

Por que isso importa

A distância crescente nos benchmarks entre modelos abertos e proprietários pressiona o ecossistema open-source a repensar estratégias de avaliação e treinamento. Para desenvolvedores e empresas que apostam em IA aberta, entender as limitações dos benchmarks atuais é essencial para não subestimar as capacidades reais — ou os riscos — das soluções escolhidas. O cenário sugere que, embora a evolução continue, a promessa de paridade com modelos fechados segue adiada.

Tags
  • #caisi
  • #benchmark
  • #open-source
  • #deepseek
  • #gemma
  • #kimi
  • #glm