LLMs falham em seguir procedimentos longos: novo benchmark revela limitações

Benchmark

Procedural Execution Benchmark

Métrica: acurácia da resposta final

Execução

1 de maio de 2026

#	Modelo	Score		Δ
01	14 LLMs avaliados (não especificados) Média geral para tarefas curtas	61% em 5 passos		—
02	14 LLMs avaliados (não especificados) Média geral para tarefas longas	20% em 95 passos		—

Um novo estudo publicado em 1º de maio de 2026 propõe um benchmark diagnóstico para avaliar a capacidade de grandes modelos de linguagem (LLMs) em executar procedimentos passo a passo, indo além da acurácia de resposta final geralmente reportada em benchmarks de raciocínio.

O benchmark: procedimentos aritméticos controlados

Os autores desenvolveram um conjunto de tarefas em que os modelos recebem um algoritmo aritmético, detalhado em etapas, junto com dois números de entrada. O objetivo é que o modelo execute cada passo e retorne o resultado final. Embora as operações envolvidas sejam simples, a complexidade cresce com o aumento do número de etapas e da dependência de variáveis intermediárias.

Foram avaliados 14 LLMs em 55 conjuntos de dados. O desempenho médio dos modelos caiu drasticamente conforme o número de passos aumentou: a acurácia foi de 61% em procedimentos com 5 etapas, mas despencou para 20% em tarefas com 95 etapas.

Falhas típicas e análise dos erros

A análise qualitativa dos resultados identificou padrões recorrentes de falha nos modelos:

Respostas ausentes ou prematuras
Autocorreção após erro inicial
Execução incompleta dos passos
Alucinação de etapas extras

Esses comportamentos indicam que a aparente habilidade de raciocínio dos LLMs pode mascarar deficiências importantes na execução fiel de instruções detalhadas.

Implicações e limitações

O estudo sugere que benchmarks tradicionais, focados apenas na resposta final, não capturam fragilidades na execução de processos longos e estruturados. A ausência de detalhamento sobre quais modelos específicos participaram limita a comparação direta entre sistemas, mas o resultado geral reforça a necessidade de métricas mais robustas para avaliar a obediência a instruções passo a passo.

Mais detalhes e tabelas completas estão disponíveis no artigo original.

Mais em Benchmarks

LLMs ainda falham em probabilidade contraintuitiva, diz novo benchmark
Estudo testa 8 LLMs em problemas clássicos e contraintuitivos de probabilidade. Precisão cai de 96% para 59% em exercícios que desafiam heurísticas.
Jun 8, 2026
ClinEnv: benchmark interativo avalia LLMs em prontuários médicos reais
Novo ambiente ClinEnv mede como LLMs atuam como médicos em cenários reais de internação, avaliando tanto decisões quanto o processo de coleta de informações.
Jun 2, 2026
LLMs aprendem semântica de construções raras: análise em paired-focus
Estudo mostra que LLMs open-source de porte médio conseguem captar semântica de construções raras como 'let alone', sugerindo avanço além da mera sintaxe.
Jun 1, 2026

Veja também

Lançamentos EvoArena: novo benchmark testa agentes LLM em ambientes dinâmicos
Jun 12, 2026
Análises Avaliação de IA vira novo gargalo de custo e escala em 2026
Apr 29, 2026