Probabilistic Reasoning with Dice Problems
Métrica: Acurácia média (standard vs. contraintuitivo)
5 de junho de 2026
| # | Modelo | Score | Δ | |
|---|---|---|---|---|
| 01 | LLMs (8 SOTA, nomes não divulgados) Média geral dos modelos testados | 96% (standard) / 59% (contraintuitivo) | — | |
| 02 | LLMs (variante com token bias) Quando enunciados são modificados | -20% (queda de acurácia) | — | |
| 03 | LLMs (prompt com sugestão enganosa) Todos os modelos afetados | -34% (queda de acurácia) | — |
Um novo estudo publicado em 5 de junho de 2026 avaliou a confiabilidade de grandes modelos de linguagem (LLMs) em tarefas de raciocínio probabilístico, usando problemas clássicos e contraintuitivos com dados. O trabalho, conduzido por Luca Avena, Gianmarco Bet e Bernardo Busoni, apresenta um benchmark controlado que evidencia tanto os avanços quanto as limitações dos modelos de última geração.
O estudo: dois tipos de desafio
Os autores construíram dois conjuntos de exercícios: um com problemas tradicionais de probabilidade — semelhantes aos encontrados em livros didáticos — e outro com questões projetadas para induzir erros heurísticos, típicos de armadilhas cognitivas em probabilidade discreta. O objetivo era medir o quanto os LLMs conseguem raciocinar logicamente versus quando recorrem a atalhos ou padrões de resposta.
O teste envolveu oito modelos de ponta, cada um avaliado com e sem prompting do tipo Chain-of-Thought, prática comum para melhorar raciocínio passo a passo. A média de acerto nos exercícios tradicionais foi de 96%, indicando domínio de problemas canônicos. No entanto, quando a tarefa exigia superar intuições enganosas, a taxa de acerto despencou para 59%.
Token bias e fragilidade do raciocínio
O estudo também analisou como pequenas mudanças na formulação dos problemas afetam o desempenho dos LLMs. Ao “disfarçar” os enunciados — mudando termos ou a ordem das informações — a acurácia caiu mais de 20%. Quando sugestões enganosas eram embutidas no próprio prompt, a performance dos modelos despencava até 34%, sem que nenhum deles se mostrasse imune.
Esses resultados sugerem que, apesar do sucesso dos LLMs em tarefas matemáticas avançadas, o raciocínio probabilístico genuíno ainda é frágil. Os modelos tendem a reproduzir padrões aprendidos, ficando vulneráveis a manipulações sutis de linguagem ou contexto.
Implicações para aplicações práticas
A fragilidade identificada impacta diretamente aplicações que dependem de julgamento probabilístico — como assistentes que explicam riscos, sistemas de recomendação ou chatbots para educação matemática. O desempenho sólido em problemas tradicionais esconde vulnerabilidades importantes em cenários menos previsíveis ou quando há intenção de enganar.
O uso de prompting avançado (Chain-of-Thought) melhora, mas não resolve, a limitação estrutural: os modelos ainda não internalizaram princípios probabilísticos, apenas reproduzem padrões recorrentes dos dados de treinamento.
Próximos passos e limitações
O artigo não divulga os nomes dos oito modelos avaliados, nem detalha benchmarks específicos para cada LLM, o que limita comparações diretas com lançamentos recentes. A abordagem, porém, oferece um novo parâmetro para avaliar robustez de modelos em tarefas que vão além de benchmarks tradicionais de matemática ou linguagem.