22–23 de abril de 2026
| # | Modelo | Score | Δ | |
|---|---|---|---|---|
| 01 | Claude Opus 5 Recém-lançado · extended thinking ligado | 74.1% | +5.3 | |
| 02 | GPT-5 Modo raciocínio alto | 68.8% | +1.2 | |
| 03 | Gemini 2.5 Pro | 62.4% | — | |
| 04 | Claude Sonnet 4.6 Referência de custo/benefício | 60.1% | -14.0 | |
| 05 | Llama 4 405B Instruct Open weights | 43.2% | — | |
| 06 | Mistral Large 3 | 41.7% | — |
Rodamos a SWE-bench Verified nos seis modelos de fronteira mais citados em 2026. A tabela ao lado resume. Vale a leitura das notas — sem contexto, qualquer benchmark engana.
Como rodamos
- Harness: variante do Agentless com ajuste para long-context quando o modelo suporta.
- Temperatura: 0 para todos.
- Máximo de 3 tentativas por issue, com retry estocástico desabilitado.
- Mesma revisão do dataset (500 tarefas verificadas) para os seis modelos.
- Hardware independente do provedor (nossa própria conta em cada API).
O que o ranking diz, e o que não diz
Claude Opus 5 lidera com folga nominal, mas 5,3 pontos em SWE-bench não se traduz diretamente em “5% melhor em trabalho real”. Em issues triviais os modelos convergem; o gap aparece em tarefas longas, multi-arquivo, com contexto distribuído. Aí sim o extended thinking do Opus 5 rende.
GPT-5 custa menos por tentativa e é mais rápido em throughput para agentes paralelos. Se a sua aplicação faz 100 chamadas em fan-out, a conta muda.
Gemini 2.5 Pro tem o melhor custo-benefício da faixa intermediária. Em long-context QA acima de 500k tokens, o Pro surpreende.
Open-source ainda está ~30 pontos atrás. Llama 4 e Mistral Large 3 são fortes em raciocínio isolado, mas perdem em agência (planejar + executar + verificar em várias etapas).
Reprodução
O script completo da avaliação, logs de execução e prompts estão na pasta pública do experimento (link em construção). Se encontrar inconsistência, abra issue no repositório — qualquer correção entra aqui com nota de atualização datada.