LLMs ainda falham em probabilidade contraintuitiva, diz novo benchmark

Benchmark

Probabilistic Reasoning with Dice Problems

Métrica: Acurácia média (standard vs. contraintuitivo)

Execução

5 de junho de 2026

#	Modelo	Score	Δ
01	LLMs (8 SOTA, nomes não divulgados) Média geral dos modelos testados	96% (standard) / 59% (contraintuitivo)	—
02	LLMs (variante com token bias) Quando enunciados são modificados	-20% (queda de acurácia)	—
03	LLMs (prompt com sugestão enganosa) Todos os modelos afetados	-34% (queda de acurácia)	—

Um novo estudo publicado em 5 de junho de 2026 avaliou a confiabilidade de grandes modelos de linguagem (LLMs) em tarefas de raciocínio probabilístico, usando problemas clássicos e contraintuitivos com dados. O trabalho, conduzido por Luca Avena, Gianmarco Bet e Bernardo Busoni, apresenta um benchmark controlado que evidencia tanto os avanços quanto as limitações dos modelos de última geração.

O estudo: dois tipos de desafio

Os autores construíram dois conjuntos de exercícios: um com problemas tradicionais de probabilidade — semelhantes aos encontrados em livros didáticos — e outro com questões projetadas para induzir erros heurísticos, típicos de armadilhas cognitivas em probabilidade discreta. O objetivo era medir o quanto os LLMs conseguem raciocinar logicamente versus quando recorrem a atalhos ou padrões de resposta.

O teste envolveu oito modelos de ponta, cada um avaliado com e sem prompting do tipo Chain-of-Thought, prática comum para melhorar raciocínio passo a passo. A média de acerto nos exercícios tradicionais foi de 96%, indicando domínio de problemas canônicos. No entanto, quando a tarefa exigia superar intuições enganosas, a taxa de acerto despencou para 59%.

Token bias e fragilidade do raciocínio

O estudo também analisou como pequenas mudanças na formulação dos problemas afetam o desempenho dos LLMs. Ao “disfarçar” os enunciados — mudando termos ou a ordem das informações — a acurácia caiu mais de 20%. Quando sugestões enganosas eram embutidas no próprio prompt, a performance dos modelos despencava até 34%, sem que nenhum deles se mostrasse imune.

Esses resultados sugerem que, apesar do sucesso dos LLMs em tarefas matemáticas avançadas, o raciocínio probabilístico genuíno ainda é frágil. Os modelos tendem a reproduzir padrões aprendidos, ficando vulneráveis a manipulações sutis de linguagem ou contexto.

Implicações para aplicações práticas

A fragilidade identificada impacta diretamente aplicações que dependem de julgamento probabilístico — como assistentes que explicam riscos, sistemas de recomendação ou chatbots para educação matemática. O desempenho sólido em problemas tradicionais esconde vulnerabilidades importantes em cenários menos previsíveis ou quando há intenção de enganar.

O uso de prompting avançado (Chain-of-Thought) melhora, mas não resolve, a limitação estrutural: os modelos ainda não internalizaram princípios probabilísticos, apenas reproduzem padrões recorrentes dos dados de treinamento.

Próximos passos e limitações

O artigo não divulga os nomes dos oito modelos avaliados, nem detalha benchmarks específicos para cada LLM, o que limita comparações diretas com lançamentos recentes. A abordagem, porém, oferece um novo parâmetro para avaliar robustez de modelos em tarefas que vão além de benchmarks tradicionais de matemática ou linguagem.

Leia o artigo completo no arXiv.

Mais em Benchmarks

ClinEnv: benchmark interativo avalia LLMs em prontuários médicos reais
Novo ambiente ClinEnv mede como LLMs atuam como médicos em cenários reais de internação, avaliando tanto decisões quanto o processo de coleta de informações.
Jun 2, 2026
LLMs aprendem semântica de construções raras: análise em paired-focus
Estudo mostra que LLMs open-source de porte médio conseguem captar semântica de construções raras como 'let alone', sugerindo avanço além da mera sintaxe.
Jun 1, 2026
ITBench-AA: modelos frontier não passam de 50% em tarefas SRE
Primeira rodada do ITBench-AA avalia LLMs em diagnósticos complexos de Kubernetes. Nenhum modelo supera 47%. Claude Opus 4.7 lidera, seguido por GPT-5.5 e Qwen3.7.
May 27, 2026

Veja também

Lançamentos EvoArena: novo benchmark testa agentes LLM em ambientes dinâmicos
Jun 12, 2026
Análises Avaliação de IA vira novo gargalo de custo e escala em 2026
Apr 29, 2026