2 de abril de 2026
| # | Modelo | Score | Δ | |
|---|---|---|---|---|
| 01 | Claude Opus 4.6 100 de 138 tarefas | 0.68 | — | |
| 02 | Gemini 3.1 Pro Preview 96 de 138 tarefas | 0.65 | — | |
| 03 | GLM-5 94 de 138 tarefas | 0.64 | — | |
| 04 | GPT-5.4 91 de 138 tarefas | 0.61 | — | |
| 05 | MiniMax M2.7 85 de 138 tarefas | 0.57 | — |
Modelos abertos como GLM-5 e MiniMax M2.7 alcançaram desempenho próximo ao de modelos fechados — como Claude Opus 4.6, Gemini 3.1 Pro Preview e GPT-5.4 — em tarefas centrais de agentes, segundo avaliação publicada pela equipe do LangChain em 2 de abril de 2026 fonte.
Avaliação: tarefas e métricas
O teste usou o ambiente Deep Agents para medir desempenho em sete categorias: operações de arquivos, uso de ferramentas, recuperação, conversação, memória, sumarização e “unit tests”. As métricas principais foram:
- Correctness: fração de tarefas resolvidas corretamente.
- Solve rate: combinação de precisão e velocidade.
- Step ratio e tool call ratio: eficiência no uso de passos e chamadas de ferramenta.
A pontuação de “correctness” foi o principal critério de qualidade. Claude Opus 4.6 liderou com 0,68 (100 de 138 tarefas), seguido de perto por Gemini 3.1 Pro Preview (0,65) e GLM-5 (0,64). GPT-5.4 ficou em 0,61, enquanto MiniMax M2.7 marcou 0,57.
Custos e latência
Open models oferecem vantagens significativas de custo e latência. MiniMax M2.7 custa US$ 0,30 por 1M tokens de entrada e US$ 1,20 por 1M de saída, enquanto GLM-5 sai a US$ 0,95 e US$ 3,15, respectivamente. Em comparação, Claude Opus 4.6 custa US$ 5,00 e US$ 25,00. Para aplicações que geram 10M tokens/dia, o custo diário cai de US$ 250 (Opus 4.6) para cerca de US$ 12 (MiniMax M2.7).
A latência também favorece os modelos abertos: GLM-5 no Baseten apresenta média de 0,65s por resposta, contra 2,56s do Opus 4.6. Para produtos sensíveis ao tempo de resposta, a diferença é relevante.
Por categoria de tarefa
GLM-5 e MiniMax M2.7 atingiram paridade ou superaram modelos fechados em tarefas como operações de arquivos, uso de ferramentas e unit tests. Em conversação e memória, os modelos fechados ainda levam vantagem. O resultado sugere que, para fluxos de trabalho baseados em agentes, modelos abertos já são alternativa viável.
Limitações e próximos passos
O conjunto de avaliações segue em expansão, segundo a equipe. Resultados podem variar conforme provedores e infraestruturas. Ainda assim, o avanço dos modelos abertos pressiona os custos e democratiza o acesso a agentes sofisticados.
Mais detalhes e execuções recentes podem ser conferidos no blog do LangChain.