Janeiro a março de 2026
| # | Modelo | Score | Δ | |
|---|---|---|---|---|
| 01 | Melhor agente (não identificado) Pior desempenho observado em outros agentes, Brier skill score negativo | 25% acurácia | — |
O artigo “FutureSim: Replaying World Events to Evaluate Adaptive Agents”, publicado em 14 de maio de 2026, propõe um novo benchmark para medir a capacidade de adaptação de agentes de IA em cenários realistas. O FutureSim simula a chegada de notícias e eventos do mundo real em ordem cronológica, desafiando agentes a preverem desdobramentos e resultados sem acesso prévio ao futuro dos dados.
Como funciona o FutureSim
A plataforma constrói uma simulação baseada em eventos reais, usando notícias publicadas e questões resolvidas ao longo de um período de três meses, de janeiro a março de 2026. Os agentes são avaliados em suas previsões sobre esses eventos, interagindo com o fluxo de informações como fariam em aplicações práticas.
Resultados: limites claros na adaptação
Os testes com agentes de IA de ponta mostraram que o melhor resultado de acurácia foi de apenas 25%. Além disso, muitos agentes tiveram desempenho inferior ao de uma estratégia de não realizar nenhuma previsão, quando avaliado pelo Brier skill score. Isso evidencia limitações importantes nas capacidades atuais de adaptação, busca e raciocínio frente a eventos abertos e dinâmicos.
Implicações e próximos passos
O FutureSim se propõe como referência para mensurar avanços em temas como adaptação em tempo real, busca por informações, uso de memória e raciocínio sob incerteza. O benchmark aponta para desafios ainda não resolvidos na construção de agentes realmente adaptativos para o mundo real.
Detalhes completos do estudo e da metodologia estão disponíveis no preprint no arXiv.