FutureSim: benchmark avalia adaptação de agentes a eventos do mundo real

Benchmark

FutureSim

Métrica: acurácia de previsão de eventos e Brier skill score

Execução

Janeiro a março de 2026

#	Modelo	Score		Δ
01	Melhor agente (não identificado) Pior desempenho observado em outros agentes, Brier skill score negativo	25% acurácia		—

O artigo “FutureSim: Replaying World Events to Evaluate Adaptive Agents”, publicado em 14 de maio de 2026, propõe um novo benchmark para medir a capacidade de adaptação de agentes de IA em cenários realistas. O FutureSim simula a chegada de notícias e eventos do mundo real em ordem cronológica, desafiando agentes a preverem desdobramentos e resultados sem acesso prévio ao futuro dos dados.

Como funciona o FutureSim

A plataforma constrói uma simulação baseada em eventos reais, usando notícias publicadas e questões resolvidas ao longo de um período de três meses, de janeiro a março de 2026. Os agentes são avaliados em suas previsões sobre esses eventos, interagindo com o fluxo de informações como fariam em aplicações práticas.

Resultados: limites claros na adaptação

Os testes com agentes de IA de ponta mostraram que o melhor resultado de acurácia foi de apenas 25%. Além disso, muitos agentes tiveram desempenho inferior ao de uma estratégia de não realizar nenhuma previsão, quando avaliado pelo Brier skill score. Isso evidencia limitações importantes nas capacidades atuais de adaptação, busca e raciocínio frente a eventos abertos e dinâmicos.

Implicações e próximos passos

O FutureSim se propõe como referência para mensurar avanços em temas como adaptação em tempo real, busca por informações, uso de memória e raciocínio sob incerteza. O benchmark aponta para desafios ainda não resolvidos na construção de agentes realmente adaptativos para o mundo real.

Detalhes completos do estudo e da metodologia estão disponíveis no preprint no arXiv.

Mais em Benchmarks

LLMs ainda falham em probabilidade contraintuitiva, diz novo benchmark
Estudo testa 8 LLMs em problemas clássicos e contraintuitivos de probabilidade. Precisão cai de 96% para 59% em exercícios que desafiam heurísticas.
Jun 8, 2026
Code2LoRA: hypernetworks para LoRA batem fine-tuning em benchmark de código
Novo método Code2LoRA usa hypernetworks para gerar adapters LoRA específicos por repositório, superando abordagens tradicionais em benchmark com 604 projetos Python.
Jun 5, 2026
OpAI-Bench: novo benchmark avalia detecção de texto IA em revisões progressivas
OpAI-Bench propõe avaliação inédita da detecção de autoria IA em textos editados por humanos e IA, analisando granularidades de documento a token e revelando padrões não monotônicos.
Jun 5, 2026