GLM-5 e MiniMax M2.7 desafiam modelos fechados em tarefas de agentes

Benchmark

Deep Agents evals

Métrica: Correctness (fração de tarefas resolvidas)

Execução

2 de abril de 2026

#	Modelo	Score	Δ
01	Claude Opus 4.6 100 de 138 tarefas	0.68	—
02	Gemini 3.1 Pro Preview 96 de 138 tarefas	0.65	—
03	GLM-5 94 de 138 tarefas	0.64	—
04	GPT-5.4 91 de 138 tarefas	0.61	—
05	MiniMax M2.7 85 de 138 tarefas	0.57	—

Modelos abertos como GLM-5 e MiniMax M2.7 alcançaram desempenho próximo ao de modelos fechados — como Claude Opus 4.6, Gemini 3.1 Pro Preview e GPT-5.4 — em tarefas centrais de agentes, segundo avaliação publicada pela equipe do LangChain em 2 de abril de 2026 fonte.

Avaliação: tarefas e métricas

O teste usou o ambiente Deep Agents para medir desempenho em sete categorias: operações de arquivos, uso de ferramentas, recuperação, conversação, memória, sumarização e “unit tests”. As métricas principais foram:

Correctness: fração de tarefas resolvidas corretamente.
Solve rate: combinação de precisão e velocidade.
Step ratio e tool call ratio: eficiência no uso de passos e chamadas de ferramenta.

A pontuação de “correctness” foi o principal critério de qualidade. Claude Opus 4.6 liderou com 0,68 (100 de 138 tarefas), seguido de perto por Gemini 3.1 Pro Preview (0,65) e GLM-5 (0,64). GPT-5.4 ficou em 0,61, enquanto MiniMax M2.7 marcou 0,57.

Custos e latência

Open models oferecem vantagens significativas de custo e latência. MiniMax M2.7 custa US$ 0,30 por 1M tokens de entrada e US$ 1,20 por 1M de saída, enquanto GLM-5 sai a US$ 0,95 e US$ 3,15, respectivamente. Em comparação, Claude Opus 4.6 custa US$ 5,00 e US$ 25,00. Para aplicações que geram 10M tokens/dia, o custo diário cai de US$ 250 (Opus 4.6) para cerca de US$ 12 (MiniMax M2.7).

A latência também favorece os modelos abertos: GLM-5 no Baseten apresenta média de 0,65s por resposta, contra 2,56s do Opus 4.6. Para produtos sensíveis ao tempo de resposta, a diferença é relevante.

Por categoria de tarefa

GLM-5 e MiniMax M2.7 atingiram paridade ou superaram modelos fechados em tarefas como operações de arquivos, uso de ferramentas e unit tests. Em conversação e memória, os modelos fechados ainda levam vantagem. O resultado sugere que, para fluxos de trabalho baseados em agentes, modelos abertos já são alternativa viável.

Limitações e próximos passos

O conjunto de avaliações segue em expansão, segundo a equipe. Resultados podem variar conforme provedores e infraestruturas. Ainda assim, o avanço dos modelos abertos pressiona os custos e democratiza o acesso a agentes sofisticados.

Mais detalhes e execuções recentes podem ser conferidos no blog do LangChain.

Mais em Benchmarks

DharmaOCR: modelo especializado supera APIs comerciais em OCR para português
Benchmark de maio mostra modelo de 3B parâmetros da DharmaAI vencendo Claude, GPT-5 e Google Vision em OCR estruturado de documentos brasileiros, com custo operacional 52 vezes menor.
May 22, 2026
ClinEnv: benchmark interativo avalia LLMs em prontuários médicos reais
Novo ambiente ClinEnv mede como LLMs atuam como médicos em cenários reais de internação, avaliando tanto decisões quanto o processo de coleta de informações.
Jun 2, 2026
LLMs aprendem semântica de construções raras: análise em paired-focus
Estudo mostra que LLMs open-source de porte médio conseguem captar semântica de construções raras como 'let alone', sugerindo avanço além da mera sintaxe.
Jun 1, 2026