Benchmark

ITBench-AA SRE

Métrica: Precisão média sob recall total (diagnóstico SRE)

Execução

27 de maio de 2026

# Modelo Score Δ
01 Claude Opus 4.7 (Adaptive Reasoning, Max Effort) 47%
02 GPT-5.5 (xhigh) 46%
03 Qwen3.7 Max 42%
04 GLM-5.1 (Reasoning) 40%
05 Gemini 3.5 Flash (high) 40%
06 DeepSeek V4 Pro (Reasoning, Max Effort) 38%
07 Gemma 4 31B (Reasoning) 37%
08 Gemini 3.1 Pro Preview 30%

A primeira rodada do ITBench-AA SRE estabelece um novo patamar para benchmarks de tarefas agentic em TI corporativo. Lançado em parceria entre Artificial Analysis e IBM Research, o teste avalia a capacidade de LLMs e agentes em diagnosticar incidentes complexos em ambientes Kubernetes — um cenário crítico para operações de site reliability engineering (SRE).

Como funciona o ITBench-AA

O benchmark cobre 59 tarefas de SRE, das quais 40 são públicas e 19 inéditas, com snapshots de incidentes Kubernetes que incluem alertas, eventos, logs, traces, métricas e topologia de aplicações. O desafio: identificar o conjunto mínimo de entidades Kubernetes responsáveis por cada incidente, com falhas que vão de esgotamento de recursos a políticas de rede bloqueando serviços.

Os modelos rodam no harness open-source Stirrup, com acesso shell a um sistema de arquivos sandbox contendo todos os dados do incidente. Cada tarefa permite até 100 turnos e é repetida três vezes por modelo. O score segue uma métrica rigorosa: só são contabilizados casos em que todos os root causes são identificados; qualquer entidade extra é penalizada como falso positivo. O resultado final é a média das execuções.

Desempenho dos modelos

Nenhum modelo frontier superou a barreira dos 50%. O Claude Opus 4.7 (Adaptive Reasoning, Max Effort) liderou com 47%, seguido de perto pelo GPT-5.5 (xhigh) com 46% e Qwen3.7 Max com 42%. Entre os open weights, GLM-5.1 (Reasoning) e Gemini 3.5 Flash (high) empataram em 40%, enquanto DeepSeek V4 Pro (Reasoning, Max Effort) chegou a 38% e Gemma 4 31B (Reasoning) a 37%. O Gemini 3.1 Pro Preview ficou em 30%.

A variação no número de turnos é notável — GPT-5.5 (xhigh) usa em média 31 turnos por tarefa, enquanto Gemini 3.1 Pro Preview chega a 83. Modelos que “over-investigam” tendem a apontar sintomas ou mecanismos de falha upstream como causas, perdendo pontos por precisão. O benchmark mostra que trajetórias mais longas não garantem melhor acurácia.

Custo por tarefa

O ITBench-AA também compara o custo por tarefa: Gemma 4 31B (Reasoning) entrega 37% de score por US$ 0,14, superando Gemini 3.1 Pro Preview (30%, US$ 2,23) em eficiência. Claude Opus 4.7 lidera em acurácia, mas é o mais caro, a US$ 5,38 por tarefa.

O que diferencia o ITBench-AA

Ao exigir diagnóstico preciso de root causes em incidentes reais e penalizar respostas prolixas, o ITBench-AA se posiciona como um dos benchmarks agentic menos saturados do mercado. Para comparação, os mesmos modelos apresentam scores bem mais altos no Terminal-Bench, sugerindo que tarefas de SRE representam um desafio distinto e ainda não dominado pelos LLMs atuais.

Referências técnicas

A metodologia e o dataset são detalhados no paper oficial no arXiv. O leaderboard completo está disponível em artificialanalysis.ai, e o código-fonte do harness Stirrup e do dataset pode ser consultado no GitHub do ITBench.

Para quem importa

O ITBench-AA SRE é referência para equipes de MLOps, SRE e pesquisa que buscam avaliar modelos em cenários próximos da produção. O baixo desempenho geral indica que automação agentic em incidentes complexos de TI ainda está longe do ponto ótimo — e diferenciações relevantes entre modelos já aparecem em custo, precisão e estilo investigativo.

Tags
  • #itbench
  • #benchmark
  • #kubernetes
  • #sre
  • #ibm
  • #llm