A avaliação de modelos de IA atingiu um novo patamar de custo e complexidade em 2026. Segundo artigo publicado pela equipe do evaleval, o Holistic Agent Leaderboard (HAL) gastou cerca de US$ 40.000 para rodar 21.730 rollouts entre 9 modelos e 9 benchmarks, um marco que evidencia a escalada nas despesas para testar agentes de IA em tarefas amplas e realistas.
Testar já custa tanto quanto treinar
O HAL não é caso isolado. Rodadas de benchmarks como GAIA têm custos individuais que superam US$ 2.800 por execução em modelos frontier, antes mesmo de considerar caching. Outros experimentos, como o sweep de US$ 22.000 feito pela Exgentic para comparar configurações de agentes, revelam spreads de custo de até 33 vezes em tarefas idênticas — e apontam que a escolha do scaffold (a estrutura operacional do agente) é um dos principais motores desse gasto. Grandes laboratórios, como o UK-AISI, já avaliam milhões de passos agentic para entender o impacto do compute em tempo de inferência.
O cenário se repete em benchmarks científicos. O The Well, por exemplo, demanda cerca de 960 horas de GPU H100 para avaliar uma única nova arquitetura e até 3.840 horas para um sweep completo de quatro baselines.
Compressão funciona, mas só até certo ponto
A busca por formas de baratear benchmarks começou antes da onda agentic. Quando Stanford lançou o HELM em 2022, o custo para avaliar cada modelo variava de US$ 85 (para modelos pequenos, como o code-cushman-001 da OpenAI) até US$ 10.926 (para o J1-Jumbo da AI21). O total agregado do HELM, cobrindo 30 modelos e 42 cenários, ultrapassou US$ 100.000 em compute e API. Estudos posteriores mostraram que rodar avaliações em cada checkpoint de grandes famílias, como Pythia, pode fazer o custo de avaliação superar o do pré-treinamento — especialmente em modelos menores, onde avaliar domina o orçamento do ciclo de desenvolvimento.
Técnicas de compressão, como o Flash-HELM, tinyBenchmarks e Anchor Points, conseguiram reduzir benchmarks estáticos em até 200 vezes sem comprometer significativamente o ranking dos modelos. O Open LLM Leaderboard, por exemplo, encolheu de 29.000 exemplos para apenas 180, mantendo a utilidade. Essas abordagens exploram o fato de que diferenças entre modelos costumam se concentrar em poucas tarefas-chave.
O desafio dos agentes: custos imprevisíveis e sensíveis ao scaffold
A transição de benchmarks estáticos para avaliações agentic trouxe novos obstáculos. O HAL, por exemplo, mostrou que o custo de uma única execução pode variar em quatro ordens de magnitude entre tarefas e até três ordens dentro do mesmo benchmark, dependendo da combinação de modelo, scaffold e orçamento de tokens. Pequenas escolhas na configuração do agente podem multiplicar o custo por dez, sem necessariamente trazer ganhos proporcionais em acurácia.
Exemplo: no Mind2Web, o uso do Claude Sonnet 4 custou US$ 1.577 para atingir 40% de acurácia, enquanto o GPT-5 Medium, com um scaffold diferente, obteve 42% por apenas US$ 171. O HAL reporta diferenças de custo de até nove vezes para variações de apenas dois pontos percentuais na acurácia. O CLEAR, benchmark corporativo, mostra que as configurações de máxima acurácia podem custar até dez vezes mais do que alternativas Pareto-eficientes com desempenho real semelhante.
O que ainda precisa ser resolvido
A compressão agressiva de benchmarks estáticos não se traduz com facilidade para o universo agentic, onde tarefas são mais barulhentas e sensíveis a pequenas mudanças. Repetições para garantir confiabilidade multiplicam custos, e a diversidade de scaffolds eleva ainda mais a imprevisibilidade. O resultado é que laboratórios e empresas agora precisam orçar avaliações com o mesmo cuidado dedicado ao pré-treinamento, sob risco de gargalos operacionais e financeiros.
A tendência é que novas técnicas de compressão, automação e filtragem inteligente se tornem foco de pesquisa, assim como práticas mais transparentes de contabilização de custos em benchmarks públicos.