Benchmark

BBC News factual QA (multilingue)

Métrica: Acurácia em múltipla escolha e resposta livre

Execução

fevereiro de 2026

# Modelo Score Δ
01 Gemini 3 Flash Líder em acurácia geral >90% (múltipla escolha)
02 Gemini 3 Pro sem valor individual detalhado
03 Grok 4 sem valor individual detalhado
04 Claude 4.5 Sonnet sem valor individual detalhado
05 GPT-5 sem valor individual detalhado
06 GPT-4o mini sem valor individual detalhado

Um estudo publicado em 21 de maio de 2026 avaliou o desempenho de seis chatbots comerciais de IA como intermediários de notícias, focando na precisão de respostas a fatos emergentes reportados pela BBC News em seis idiomas e regiões.

Metodologia

Foram testados Gemini 3 Flash e Pro, Grok 4, Claude 4.5 Sonnet, GPT-5 e GPT-4o mini, em 2.100 perguntas factuais baseadas em notícias do dia, coletadas entre 9 e 22 de fevereiro de 2026. O conjunto de perguntas abrangeu seis serviços regionais da BBC: US & Canada, Arabic, Afrique, Hindi, Russian e Turkish. A avaliação comparou desempenho em múltipla escolha e respostas livres, além de analisar vulnerabilidade a premissas falsas e viés de citação.

Principais resultados

Os melhores sistemas superaram 90% de acurácia em múltipla escolha sobre fatos noticiados poucas horas antes. No entanto, esse resultado caiu 11-13 pontos percentuais sob avaliação de resposta livre e 16-17 pontos considerando todos os modelos. O desempenho foi pior para perguntas em hindi (79% de acerto, contra 89-91% em outras regiões), e houve forte viés de citação para fontes em inglês mesmo em consultas feitas em outros idiomas.

Mais de 70% dos erros vieram de falhas de recuperação de informações, não de raciocínio. Quando o chatbot encontrava a fonte correta, geralmente extraía a resposta certa — o desafio é localizar a fonte adequada. Ainda, todos os modelos demonstraram vulnerabilidade a perguntas com premissas falsas: acurácia caiu para 19-70% nessas situações, e o modelo mais suscetível aceitou fatos fabricados em 64% dos casos.

O estudo também identificou um paradoxo: o sistema mais eficaz em detectar premissas falsas não foi o que obteve maior taxa de abstinência diante dessas perguntas, sugerindo que detecção e recuperação de resposta correta são capacidades parcialmente independentes.

Limitações e implicações

Apesar dos avanços, os resultados sugerem que altos índices de acurácia podem mascarar desigualdades regionais e dependência quase total da infraestrutura de busca. A vulnerabilidade a perguntas malformuladas e a incapacidade de citar fontes locais limitam a utilidade dos chatbots como intermediários de notícias globalmente.

Para organizações que consideram integrar chatbots comerciais em fluxos editoriais ou de atendimento, a escolha do modelo deve levar em conta limitações em idiomas menos representados e o risco de respostas incorretas a perguntas ambíguas ou adversariais. O estudo está disponível em arXiv.

Tags
  • #benchmark
  • #chatbots
  • #notícias
  • #bbc
  • #avaliação