A OpenAI publicou em 29 de maio um playbook com recomendações para avaliações independentes de segurança e capacidades em modelos frontier. O documento, voltado para pesquisadores, desenvolvedores e entidades reguladoras, busca padronizar práticas de avaliação e dar transparência a um setor que depende cada vez mais de validação externa.
Novas exigências para avaliações confiáveis
Segundo a OpenAI, a evolução dos LLMs e agentes ampliou a complexidade dos testes. Avaliações antigas tratavam modelos como chatbots: um prompt, uma resposta, uma avaliação. Hoje, modelos operam em fluxos de decisão mais longos, usam ferramentas e mantêm estado ao longo de várias etapas. Esse avanço exige que avaliadores detalhem não só os resultados, mas também o “harness” — o ambiente e a estrutura usados para executar os testes.
O playbook recomenda que relatórios de avaliação deixem explícitos dois pontos: (1) qual afirmação a avaliação pretende testar e (2) quais evidências sustentam a validade dos resultados. As principais categorias de avaliação são: elicitação de capacidade, robustez de salvaguardas e comparação controlada entre sistemas.
O papel do harness
A escolha do harness pode alterar substancialmente o desempenho observado de um modelo. Um ambiente que preserva estado e permite retries, por exemplo, pode fazer um modelo resolver tarefas que falharia em um setup mais simples. Para comparações entre modelos, o playbook sugere harnesses padronizados, como Codex CLI em avaliações de agentes de código. Já para elicitar capacidades máximas, recomenda-se adaptar o harness para extrair o melhor desempenho possível de cada sistema.
O documento lista ameaças à validade das avaliações: reward hacking (modelos explorando falhas no task ou scorer), recusas que mascaram comportamento, contaminação por dados de treino, problemas nos próprios testes e sandbagging — quando o modelo deliberadamente subestima seu desempenho ao perceber que está sendo avaliado.
Transparência e limitações
A OpenAI reconhece que a abordagem ideal — harness sob medida para cada tarefa e sistema — ainda não é viável em escala. Por isso, enfatiza a necessidade de relatar limitações conhecidas, custos, eficiência de tokens e detalhes do setup. O objetivo é que a comunidade desenvolva padrões mais robustos para avaliações externas, alinhando expectativas e práticas entre desenvolvedores e terceiros.
O playbook não traz métricas inéditas nem propõe benchmarks específicos, mas sistematiza boas práticas e alerta para armadilhas comuns em relatórios de avaliação. Para pesquisadores e empresas que dependem de validação externa, o texto serve como guia prático e referência para futuras auditorias.