1 de maio de 2026
| # | Modelo | Score | Δ | |
|---|---|---|---|---|
| 01 | 14 LLMs avaliados (não especificados) Média geral para tarefas curtas | 61% em 5 passos | — | |
| 02 | 14 LLMs avaliados (não especificados) Média geral para tarefas longas | 20% em 95 passos | — |
Um novo estudo publicado em 1º de maio de 2026 propõe um benchmark diagnóstico para avaliar a capacidade de grandes modelos de linguagem (LLMs) em executar procedimentos passo a passo, indo além da acurácia de resposta final geralmente reportada em benchmarks de raciocínio.
O benchmark: procedimentos aritméticos controlados
Os autores desenvolveram um conjunto de tarefas em que os modelos recebem um algoritmo aritmético, detalhado em etapas, junto com dois números de entrada. O objetivo é que o modelo execute cada passo e retorne o resultado final. Embora as operações envolvidas sejam simples, a complexidade cresce com o aumento do número de etapas e da dependência de variáveis intermediárias.
Foram avaliados 14 LLMs em 55 conjuntos de dados. O desempenho médio dos modelos caiu drasticamente conforme o número de passos aumentou: a acurácia foi de 61% em procedimentos com 5 etapas, mas despencou para 20% em tarefas com 95 etapas.
Falhas típicas e análise dos erros
A análise qualitativa dos resultados identificou padrões recorrentes de falha nos modelos:
- Respostas ausentes ou prematuras
- Autocorreção após erro inicial
- Execução incompleta dos passos
- Alucinação de etapas extras
Esses comportamentos indicam que a aparente habilidade de raciocínio dos LLMs pode mascarar deficiências importantes na execução fiel de instruções detalhadas.
Implicações e limitações
O estudo sugere que benchmarks tradicionais, focados apenas na resposta final, não capturam fragilidades na execução de processos longos e estruturados. A ausência de detalhamento sobre quais modelos específicos participaram limita a comparação direta entre sistemas, mas o resultado geral reforça a necessidade de métricas mais robustas para avaliar a obediência a instruções passo a passo.
Mais detalhes e tabelas completas estão disponíveis no artigo original.