SWE-bench Verified 2026 Q2: ranking dos frontier models

Benchmark

SWE-bench Verified

Métrica: % de issues resolvidos (500 tarefas)

Execução

22–23 de abril de 2026

#	Modelo	Score	Δ
01	Claude Opus 5 Recém-lançado · extended thinking ligado	74.1%	+5.3
02	GPT-5 Modo raciocínio alto	68.8%	+1.2
03	Gemini 2.5 Pro	62.4%	—
04	Claude Sonnet 4.6 Referência de custo/benefício	60.1%	-14.0
05	Llama 4 405B Instruct Open weights	43.2%	—
06	Mistral Large 3	41.7%	—

Rodamos a SWE-bench Verified nos seis modelos de fronteira mais citados em 2026. A tabela ao lado resume. Vale a leitura das notas — sem contexto, qualquer benchmark engana.

Como rodamos

Harness: variante do Agentless com ajuste para long-context quando o modelo suporta.
Temperatura: 0 para todos.
Máximo de 3 tentativas por issue, com retry estocástico desabilitado.
Mesma revisão do dataset (500 tarefas verificadas) para os seis modelos.
Hardware independente do provedor (nossa própria conta em cada API).

O que o ranking diz, e o que não diz

Claude Opus 5 lidera com folga nominal, mas 5,3 pontos em SWE-bench não se traduz diretamente em “5% melhor em trabalho real”. Em issues triviais os modelos convergem; o gap aparece em tarefas longas, multi-arquivo, com contexto distribuído. Aí sim o extended thinking do Opus 5 rende.

GPT-5 custa menos por tentativa e é mais rápido em throughput para agentes paralelos. Se a sua aplicação faz 100 chamadas em fan-out, a conta muda.

Gemini 2.5 Pro tem o melhor custo-benefício da faixa intermediária. Em long-context QA acima de 500k tokens, o Pro surpreende.

Open-source ainda está ~30 pontos atrás. Llama 4 e Mistral Large 3 são fortes em raciocínio isolado, mas perdem em agência (planejar + executar + verificar em várias etapas).

Reprodução

O script completo da avaliação, logs de execução e prompts estão na pasta pública do experimento (link em construção). Se encontrar inconsistência, abra issue no repositório — qualquer correção entra aqui com nota de atualização datada.