Benchmark

Procedural Execution Benchmark

Métrica: acurácia da resposta final

Execução

1 de maio de 2026

# Modelo Score Δ
01 14 LLMs avaliados (não especificados) Média geral para tarefas curtas 61% em 5 passos
02 14 LLMs avaliados (não especificados) Média geral para tarefas longas 20% em 95 passos

Um novo estudo publicado em 1º de maio de 2026 propõe um benchmark diagnóstico para avaliar a capacidade de grandes modelos de linguagem (LLMs) em executar procedimentos passo a passo, indo além da acurácia de resposta final geralmente reportada em benchmarks de raciocínio.

O benchmark: procedimentos aritméticos controlados

Os autores desenvolveram um conjunto de tarefas em que os modelos recebem um algoritmo aritmético, detalhado em etapas, junto com dois números de entrada. O objetivo é que o modelo execute cada passo e retorne o resultado final. Embora as operações envolvidas sejam simples, a complexidade cresce com o aumento do número de etapas e da dependência de variáveis intermediárias.

Foram avaliados 14 LLMs em 55 conjuntos de dados. O desempenho médio dos modelos caiu drasticamente conforme o número de passos aumentou: a acurácia foi de 61% em procedimentos com 5 etapas, mas despencou para 20% em tarefas com 95 etapas.

Falhas típicas e análise dos erros

A análise qualitativa dos resultados identificou padrões recorrentes de falha nos modelos:

  • Respostas ausentes ou prematuras
  • Autocorreção após erro inicial
  • Execução incompleta dos passos
  • Alucinação de etapas extras

Esses comportamentos indicam que a aparente habilidade de raciocínio dos LLMs pode mascarar deficiências importantes na execução fiel de instruções detalhadas.

Implicações e limitações

O estudo sugere que benchmarks tradicionais, focados apenas na resposta final, não capturam fragilidades na execução de processos longos e estruturados. A ausência de detalhamento sobre quais modelos específicos participaram limita a comparação direta entre sistemas, mas o resultado geral reforça a necessidade de métricas mais robustas para avaliar a obediência a instruções passo a passo.

Mais detalhes e tabelas completas estão disponíveis no artigo original.

Tags
  • #llm
  • #benchmark
  • #procedural-execution