Benchmark

SWE-bench Verified

Métrica: % de issues resolvidos (500 tarefas)

Execução

22–23 de abril de 2026

# Modelo Score Δ
01 Claude Opus 5 Recém-lançado · extended thinking ligado 74.1% +5.3
02 GPT-5 Modo raciocínio alto 68.8% +1.2
03 Gemini 2.5 Pro 62.4%
04 Claude Sonnet 4.6 Referência de custo/benefício 60.1% -14.0
05 Llama 4 405B Instruct Open weights 43.2%
06 Mistral Large 3 41.7%

Rodamos a SWE-bench Verified nos seis modelos de fronteira mais citados em 2026. A tabela ao lado resume. Vale a leitura das notas — sem contexto, qualquer benchmark engana.

Como rodamos

  • Harness: variante do Agentless com ajuste para long-context quando o modelo suporta.
  • Temperatura: 0 para todos.
  • Máximo de 3 tentativas por issue, com retry estocástico desabilitado.
  • Mesma revisão do dataset (500 tarefas verificadas) para os seis modelos.
  • Hardware independente do provedor (nossa própria conta em cada API).

O que o ranking diz, e o que não diz

Claude Opus 5 lidera com folga nominal, mas 5,3 pontos em SWE-bench não se traduz diretamente em “5% melhor em trabalho real”. Em issues triviais os modelos convergem; o gap aparece em tarefas longas, multi-arquivo, com contexto distribuído. Aí sim o extended thinking do Opus 5 rende.

GPT-5 custa menos por tentativa e é mais rápido em throughput para agentes paralelos. Se a sua aplicação faz 100 chamadas em fan-out, a conta muda.

Gemini 2.5 Pro tem o melhor custo-benefício da faixa intermediária. Em long-context QA acima de 500k tokens, o Pro surpreende.

Open-source ainda está ~30 pontos atrás. Llama 4 e Mistral Large 3 são fortes em raciocínio isolado, mas perdem em agência (planejar + executar + verificar em várias etapas).

Reprodução

O script completo da avaliação, logs de execução e prompts estão na pasta pública do experimento (link em construção). Se encontrar inconsistência, abra issue no repositório — qualquer correção entra aqui com nota de atualização datada.

Tags
  • #benchmark
  • #swe-bench
  • #coding
  • #comparativo