SWE-bench Verified 2026 Q2: ranking dos frontier models
Medimos os seis principais modelos de 2026 na suíte SWE-bench Verified. Claude Opus 5 lidera — mas a diferença pra o GPT-5 é menor do que parece.
Medições, comparações e dados sobre capacidade dos modelos.
1 edição arquivadas
Medimos os seis principais modelos de 2026 na suíte SWE-bench Verified. Claude Opus 5 lidera — mas a diferença pra o GPT-5 é menor do que parece.