fevereiro de 2026
| # | Modelo | Score | Δ | |
|---|---|---|---|---|
| 01 | Gemini 3 Flash Líder em acurácia geral | >90% (múltipla escolha) | — | |
| 02 | Gemini 3 Pro | sem valor individual detalhado | — | |
| 03 | Grok 4 | sem valor individual detalhado | — | |
| 04 | Claude 4.5 Sonnet | sem valor individual detalhado | — | |
| 05 | GPT-5 | sem valor individual detalhado | — | |
| 06 | GPT-4o mini | sem valor individual detalhado | — |
Um estudo publicado em 21 de maio de 2026 avaliou o desempenho de seis chatbots comerciais de IA como intermediários de notícias, focando na precisão de respostas a fatos emergentes reportados pela BBC News em seis idiomas e regiões.
Metodologia
Foram testados Gemini 3 Flash e Pro, Grok 4, Claude 4.5 Sonnet, GPT-5 e GPT-4o mini, em 2.100 perguntas factuais baseadas em notícias do dia, coletadas entre 9 e 22 de fevereiro de 2026. O conjunto de perguntas abrangeu seis serviços regionais da BBC: US & Canada, Arabic, Afrique, Hindi, Russian e Turkish. A avaliação comparou desempenho em múltipla escolha e respostas livres, além de analisar vulnerabilidade a premissas falsas e viés de citação.
Principais resultados
Os melhores sistemas superaram 90% de acurácia em múltipla escolha sobre fatos noticiados poucas horas antes. No entanto, esse resultado caiu 11-13 pontos percentuais sob avaliação de resposta livre e 16-17 pontos considerando todos os modelos. O desempenho foi pior para perguntas em hindi (79% de acerto, contra 89-91% em outras regiões), e houve forte viés de citação para fontes em inglês mesmo em consultas feitas em outros idiomas.
Mais de 70% dos erros vieram de falhas de recuperação de informações, não de raciocínio. Quando o chatbot encontrava a fonte correta, geralmente extraía a resposta certa — o desafio é localizar a fonte adequada. Ainda, todos os modelos demonstraram vulnerabilidade a perguntas com premissas falsas: acurácia caiu para 19-70% nessas situações, e o modelo mais suscetível aceitou fatos fabricados em 64% dos casos.
O estudo também identificou um paradoxo: o sistema mais eficaz em detectar premissas falsas não foi o que obteve maior taxa de abstinência diante dessas perguntas, sugerindo que detecção e recuperação de resposta correta são capacidades parcialmente independentes.
Limitações e implicações
Apesar dos avanços, os resultados sugerem que altos índices de acurácia podem mascarar desigualdades regionais e dependência quase total da infraestrutura de busca. A vulnerabilidade a perguntas malformuladas e a incapacidade de citar fontes locais limitam a utilidade dos chatbots como intermediários de notícias globalmente.
Para organizações que consideram integrar chatbots comerciais em fluxos editoriais ou de atendimento, a escolha do modelo deve levar em conta limitações em idiomas menos representados e o risco de respostas incorretas a perguntas ambíguas ou adversariais. O estudo está disponível em arXiv.