Benchmark

Deep Agents evals

Métrica: Correctness (fração de tarefas resolvidas)

Execução

2 de abril de 2026

# Modelo Score Δ
01 Claude Opus 4.6 100 de 138 tarefas 0.68
02 Gemini 3.1 Pro Preview 96 de 138 tarefas 0.65
03 GLM-5 94 de 138 tarefas 0.64
04 GPT-5.4 91 de 138 tarefas 0.61
05 MiniMax M2.7 85 de 138 tarefas 0.57

Modelos abertos como GLM-5 e MiniMax M2.7 alcançaram desempenho próximo ao de modelos fechados — como Claude Opus 4.6, Gemini 3.1 Pro Preview e GPT-5.4 — em tarefas centrais de agentes, segundo avaliação publicada pela equipe do LangChain em 2 de abril de 2026 fonte.

Avaliação: tarefas e métricas

O teste usou o ambiente Deep Agents para medir desempenho em sete categorias: operações de arquivos, uso de ferramentas, recuperação, conversação, memória, sumarização e “unit tests”. As métricas principais foram:

  • Correctness: fração de tarefas resolvidas corretamente.
  • Solve rate: combinação de precisão e velocidade.
  • Step ratio e tool call ratio: eficiência no uso de passos e chamadas de ferramenta.

A pontuação de “correctness” foi o principal critério de qualidade. Claude Opus 4.6 liderou com 0,68 (100 de 138 tarefas), seguido de perto por Gemini 3.1 Pro Preview (0,65) e GLM-5 (0,64). GPT-5.4 ficou em 0,61, enquanto MiniMax M2.7 marcou 0,57.

Custos e latência

Open models oferecem vantagens significativas de custo e latência. MiniMax M2.7 custa US$ 0,30 por 1M tokens de entrada e US$ 1,20 por 1M de saída, enquanto GLM-5 sai a US$ 0,95 e US$ 3,15, respectivamente. Em comparação, Claude Opus 4.6 custa US$ 5,00 e US$ 25,00. Para aplicações que geram 10M tokens/dia, o custo diário cai de US$ 250 (Opus 4.6) para cerca de US$ 12 (MiniMax M2.7).

A latência também favorece os modelos abertos: GLM-5 no Baseten apresenta média de 0,65s por resposta, contra 2,56s do Opus 4.6. Para produtos sensíveis ao tempo de resposta, a diferença é relevante.

Por categoria de tarefa

GLM-5 e MiniMax M2.7 atingiram paridade ou superaram modelos fechados em tarefas como operações de arquivos, uso de ferramentas e unit tests. Em conversação e memória, os modelos fechados ainda levam vantagem. O resultado sugere que, para fluxos de trabalho baseados em agentes, modelos abertos já são alternativa viável.

Limitações e próximos passos

O conjunto de avaliações segue em expansão, segundo a equipe. Resultados podem variar conforme provedores e infraestruturas. Ainda assim, o avanço dos modelos abertos pressiona os custos e democratiza o acesso a agentes sofisticados.

Mais detalhes e execuções recentes podem ser conferidos no blog do LangChain.

Tags
  • #benchmark
  • #glm-5
  • #minimax
  • #claude
  • #deep-agents