Benchmark

Probabilistic Reasoning with Dice Problems

Métrica: Acurácia média (standard vs. contraintuitivo)

Execução

5 de junho de 2026

# Modelo Score Δ
01 LLMs (8 SOTA, nomes não divulgados) Média geral dos modelos testados 96% (standard) / 59% (contraintuitivo)
02 LLMs (variante com token bias) Quando enunciados são modificados -20% (queda de acurácia)
03 LLMs (prompt com sugestão enganosa) Todos os modelos afetados -34% (queda de acurácia)

Um novo estudo publicado em 5 de junho de 2026 avaliou a confiabilidade de grandes modelos de linguagem (LLMs) em tarefas de raciocínio probabilístico, usando problemas clássicos e contraintuitivos com dados. O trabalho, conduzido por Luca Avena, Gianmarco Bet e Bernardo Busoni, apresenta um benchmark controlado que evidencia tanto os avanços quanto as limitações dos modelos de última geração.

O estudo: dois tipos de desafio

Os autores construíram dois conjuntos de exercícios: um com problemas tradicionais de probabilidade — semelhantes aos encontrados em livros didáticos — e outro com questões projetadas para induzir erros heurísticos, típicos de armadilhas cognitivas em probabilidade discreta. O objetivo era medir o quanto os LLMs conseguem raciocinar logicamente versus quando recorrem a atalhos ou padrões de resposta.

O teste envolveu oito modelos de ponta, cada um avaliado com e sem prompting do tipo Chain-of-Thought, prática comum para melhorar raciocínio passo a passo. A média de acerto nos exercícios tradicionais foi de 96%, indicando domínio de problemas canônicos. No entanto, quando a tarefa exigia superar intuições enganosas, a taxa de acerto despencou para 59%.

Token bias e fragilidade do raciocínio

O estudo também analisou como pequenas mudanças na formulação dos problemas afetam o desempenho dos LLMs. Ao “disfarçar” os enunciados — mudando termos ou a ordem das informações — a acurácia caiu mais de 20%. Quando sugestões enganosas eram embutidas no próprio prompt, a performance dos modelos despencava até 34%, sem que nenhum deles se mostrasse imune.

Esses resultados sugerem que, apesar do sucesso dos LLMs em tarefas matemáticas avançadas, o raciocínio probabilístico genuíno ainda é frágil. Os modelos tendem a reproduzir padrões aprendidos, ficando vulneráveis a manipulações sutis de linguagem ou contexto.

Implicações para aplicações práticas

A fragilidade identificada impacta diretamente aplicações que dependem de julgamento probabilístico — como assistentes que explicam riscos, sistemas de recomendação ou chatbots para educação matemática. O desempenho sólido em problemas tradicionais esconde vulnerabilidades importantes em cenários menos previsíveis ou quando há intenção de enganar.

O uso de prompting avançado (Chain-of-Thought) melhora, mas não resolve, a limitação estrutural: os modelos ainda não internalizaram princípios probabilísticos, apenas reproduzem padrões recorrentes dos dados de treinamento.

Próximos passos e limitações

O artigo não divulga os nomes dos oito modelos avaliados, nem detalha benchmarks específicos para cada LLM, o que limita comparações diretas com lançamentos recentes. A abordagem, porém, oferece um novo parâmetro para avaliar robustez de modelos em tarefas que vão além de benchmarks tradicionais de matemática ou linguagem.

Leia o artigo completo no arXiv.

Tags
  • #benchmark
  • #llm
  • #probabilidade
  • #chain-of-thought