Avaliação de IA vira novo gargalo de custo e escala em 2026

A avaliação de modelos de IA atingiu um novo patamar de custo e complexidade em 2026. Segundo artigo publicado pela equipe do evaleval, o Holistic Agent Leaderboard (HAL) gastou cerca de US$ 40.000 para rodar 21.730 rollouts entre 9 modelos e 9 benchmarks, um marco que evidencia a escalada nas despesas para testar agentes de IA em tarefas amplas e realistas.

Testar já custa tanto quanto treinar

O HAL não é caso isolado. Rodadas de benchmarks como GAIA têm custos individuais que superam US$ 2.800 por execução em modelos frontier, antes mesmo de considerar caching. Outros experimentos, como o sweep de US$ 22.000 feito pela Exgentic para comparar configurações de agentes, revelam spreads de custo de até 33 vezes em tarefas idênticas — e apontam que a escolha do scaffold (a estrutura operacional do agente) é um dos principais motores desse gasto. Grandes laboratórios, como o UK-AISI, já avaliam milhões de passos agentic para entender o impacto do compute em tempo de inferência.

O cenário se repete em benchmarks científicos. O The Well, por exemplo, demanda cerca de 960 horas de GPU H100 para avaliar uma única nova arquitetura e até 3.840 horas para um sweep completo de quatro baselines.

Compressão funciona, mas só até certo ponto

A busca por formas de baratear benchmarks começou antes da onda agentic. Quando Stanford lançou o HELM em 2022, o custo para avaliar cada modelo variava de US$ 85 (para modelos pequenos, como o code-cushman-001 da OpenAI) até US$ 10.926 (para o J1-Jumbo da AI21). O total agregado do HELM, cobrindo 30 modelos e 42 cenários, ultrapassou US$ 100.000 em compute e API. Estudos posteriores mostraram que rodar avaliações em cada checkpoint de grandes famílias, como Pythia, pode fazer o custo de avaliação superar o do pré-treinamento — especialmente em modelos menores, onde avaliar domina o orçamento do ciclo de desenvolvimento.

Técnicas de compressão, como o Flash-HELM, tinyBenchmarks e Anchor Points, conseguiram reduzir benchmarks estáticos em até 200 vezes sem comprometer significativamente o ranking dos modelos. O Open LLM Leaderboard, por exemplo, encolheu de 29.000 exemplos para apenas 180, mantendo a utilidade. Essas abordagens exploram o fato de que diferenças entre modelos costumam se concentrar em poucas tarefas-chave.

O desafio dos agentes: custos imprevisíveis e sensíveis ao scaffold

A transição de benchmarks estáticos para avaliações agentic trouxe novos obstáculos. O HAL, por exemplo, mostrou que o custo de uma única execução pode variar em quatro ordens de magnitude entre tarefas e até três ordens dentro do mesmo benchmark, dependendo da combinação de modelo, scaffold e orçamento de tokens. Pequenas escolhas na configuração do agente podem multiplicar o custo por dez, sem necessariamente trazer ganhos proporcionais em acurácia.

Exemplo: no Mind2Web, o uso do Claude Sonnet 4 custou US$ 1.577 para atingir 40% de acurácia, enquanto o GPT-5 Medium, com um scaffold diferente, obteve 42% por apenas US$ 171. O HAL reporta diferenças de custo de até nove vezes para variações de apenas dois pontos percentuais na acurácia. O CLEAR, benchmark corporativo, mostra que as configurações de máxima acurácia podem custar até dez vezes mais do que alternativas Pareto-eficientes com desempenho real semelhante.

O que ainda precisa ser resolvido

A compressão agressiva de benchmarks estáticos não se traduz com facilidade para o universo agentic, onde tarefas são mais barulhentas e sensíveis a pequenas mudanças. Repetições para garantir confiabilidade multiplicam custos, e a diversidade de scaffolds eleva ainda mais a imprevisibilidade. O resultado é que laboratórios e empresas agora precisam orçar avaliações com o mesmo cuidado dedicado ao pré-treinamento, sob risco de gargalos operacionais e financeiros.

A tendência é que novas técnicas de compressão, automação e filtragem inteligente se tornem foco de pesquisa, assim como práticas mais transparentes de contabilização de custos em benchmarks públicos.

Leia o artigo completo no blog do evaleval.

Mais em Análises

O que o teste do pelicano diz (e não diz) sobre benchmark em IA
Análise inédita de 1.008 imagens em 7 LLMs mostra que laboratórios não otimizam de forma suspeita para o famoso prompt do pelicano. O que isso revela sobre benchmarks informais.
Jul 22, 2026
O incidente Matplotlib: até onde vai a autonomia (e a responsabilidade) da IA
Caso inédito expõe como um agente autônomo de IA publicou texto hostil contra um desenvolvedor após rejeição de PR. O debate sobre responsabilidade não pode ser ignorado.
Jun 1, 2026
Cancelar a assinatura de IA: o paradoxo da produtividade digital
Ferramentas de IA prometem produtividade, mas podem amplificar distração e gerar projetos sem propósito. O custo real do uso irrestrito.
May 31, 2026

Veja também

Lançamentos EvoArena: novo benchmark testa agentes LLM em ambientes dinâmicos
Jun 12, 2026
Benchmarks LACUNA: novo benchmark testa precisão de unlearning em LLMs
Jul 3, 2026