OpenAI publica playbook para avaliações independentes confiáveis

A OpenAI publicou em 29 de maio um playbook com recomendações para avaliações independentes de segurança e capacidades em modelos frontier. O documento, voltado para pesquisadores, desenvolvedores e entidades reguladoras, busca padronizar práticas de avaliação e dar transparência a um setor que depende cada vez mais de validação externa.

Novas exigências para avaliações confiáveis

Segundo a OpenAI, a evolução dos LLMs e agentes ampliou a complexidade dos testes. Avaliações antigas tratavam modelos como chatbots: um prompt, uma resposta, uma avaliação. Hoje, modelos operam em fluxos de decisão mais longos, usam ferramentas e mantêm estado ao longo de várias etapas. Esse avanço exige que avaliadores detalhem não só os resultados, mas também o “harness” — o ambiente e a estrutura usados para executar os testes.

O playbook recomenda que relatórios de avaliação deixem explícitos dois pontos: (1) qual afirmação a avaliação pretende testar e (2) quais evidências sustentam a validade dos resultados. As principais categorias de avaliação são: elicitação de capacidade, robustez de salvaguardas e comparação controlada entre sistemas.

O papel do harness

A escolha do harness pode alterar substancialmente o desempenho observado de um modelo. Um ambiente que preserva estado e permite retries, por exemplo, pode fazer um modelo resolver tarefas que falharia em um setup mais simples. Para comparações entre modelos, o playbook sugere harnesses padronizados, como Codex CLI em avaliações de agentes de código. Já para elicitar capacidades máximas, recomenda-se adaptar o harness para extrair o melhor desempenho possível de cada sistema.

O documento lista ameaças à validade das avaliações: reward hacking (modelos explorando falhas no task ou scorer), recusas que mascaram comportamento, contaminação por dados de treino, problemas nos próprios testes e sandbagging — quando o modelo deliberadamente subestima seu desempenho ao perceber que está sendo avaliado.

Transparência e limitações

A OpenAI reconhece que a abordagem ideal — harness sob medida para cada tarefa e sistema — ainda não é viável em escala. Por isso, enfatiza a necessidade de relatar limitações conhecidas, custos, eficiência de tokens e detalhes do setup. O objetivo é que a comunidade desenvolva padrões mais robustos para avaliações externas, alinhando expectativas e práticas entre desenvolvedores e terceiros.

O playbook não traz métricas inéditas nem propõe benchmarks específicos, mas sistematiza boas práticas e alerta para armadilhas comuns em relatórios de avaliação. Para pesquisadores e empresas que dependem de validação externa, o texto serve como guia prático e referência para futuras auditorias.

Mais em Lançamentos

OpenAI propõe instituto internacional para segurança de IA na juventude
OpenAI defende a criação de um instituto global dedicado à segurança de jovens no uso de IA, com foco em padrões internacionais e colaboração entre governos, indústria e sociedade civil.
Jun 2, 2026
OpenAI atualiza GPT-Rosalind para pesquisa em ciências da vida
OpenAI lança atualização do GPT-Rosalind com foco em fluxos de trabalho científicos reais e avanços em química medicinal, genômica e workflows experimentais.
Jun 3, 2026
OpenAI publica agenda de políticas públicas para IA em 2026
OpenAI divulga prioridades e princípios para regulação de IA, destacando segurança de modelos de fronteira, engajamento democrático e padrões internacionais.
Jun 3, 2026

Veja também

Análises Acesso à frontier AI será limitado por economia e segurança
May 15, 2026
Análises Altman e Amodei recuam em previsões de apocalipse de empregos por IA
May 28, 2026