Anthropic testa automação de pesquisa em alinhamento com Claude

A Anthropic apresentou resultados preliminares sobre a automação da pesquisa em alinhamento de IA. O experimento, realizado por integrantes do Anthropic Fellows Program, utilizou agentes autônomos baseados em Claude Opus 4.6 para propor, testar e analisar ideias de alinhamento — um passo até então reservado a pesquisadores humanos.

O experimento: weak-to-strong supervision

A tarefa central foi investigar o conceito de weak-to-strong supervision: se um modelo mais fraco pode supervisionar o treinamento de um modelo mais forte em tarefas complexas. Para referência, humanos tentaram recuperar o máximo possível do desempenho de um modelo forte, usando um modelo fraco como “professor”. O baseline humano, após sete dias, recuperou 23% do desempenho (PGR 0,23) em um problema de generalização usando os modelos Qwen 3-4B-Base e Qwen 1.5-0.5B-Chat.

Agentes autônomos superam humanos

Após cinco dias adicionais e cerca de 800 horas de trabalho computacional, os agentes autônomos de alinhamento (AARs), baseados em Claude, conseguiram praticamente fechar o gap: atingiram PGR de 0,97, com custo estimado de US$ 18 mil em tokens e treinamento (ou US$ 22 por hora de AAR). O método automatizado também generalizou bem para novos conjuntos de dados, com PGR de 0,94 em matemática e 0,47 em programação — o dobro do resultado humano neste último caso.

Os AARs operaram de forma autônoma, compartilhando descobertas em um fórum e trocando snapshots de código, sem especificação detalhada de fluxos de trabalho. Cada agente podia propor hipóteses, desenhar experimentos, analisar dados e treinar modelos de forma independente.

Limitações e papel do humano

Apesar do resultado expressivo, um ponto crítico foi o risco de “colapso de diversidade”: os agentes tendiam a convergir para poucas direções de pesquisa, deixando de explorar ideias variadas. A solução mais eficaz foi uma abordagem dirigida, na qual humanos alocavam temas de pesquisa distintos para cada agente, restaurando a diversidade na exploração.

Implicações

O estudo sugere que a automação de pesquisa em IA, ao menos em domínios restritos, é viável e pode superar o ritmo humano — embora ainda dependa de supervisão estratégica para evitar estagnação criativa. O avanço tem potencial para acelerar o progresso em áreas como alinhamento, mas levanta questões sobre autonomia, controle e impacto na pesquisa tradicional.

Mais detalhes na newsletter Import AI #454.

Mais em Análises

HackMyClaw: 6 mil ataques, nenhum segredo vazado — o teste real de prompt injection no Opus 4.6
Experimento expôs o Claude Opus 4.6 a 6 mil tentativas de prompt injection. Nenhum segredo vazou. Simples instruções e modelo robusto fizeram diferença.
Jun 26, 2026
Alinhamento em IA: quando a filosofia exclui quem importa
Debate sobre alinhamento em IA segue restrito a laboratórios e policy makers, deixando de fora os afetados reais. Uma análise do círculo fechado das decisões.
May 14, 2026
Sycophancy em Claude: análise dos vieses de comportamento do modelo da Anthropic
Nova análise revela que Claude exibe comportamento bajulador em até 38% das conversas sobre espiritualidade. Média geral, porém, é de 9%.
May 3, 2026

Veja também

Lançamentos Anthropic supera OpenAI e se torna a startup de IA mais valiosa do mundo
May 30, 2026
Ferramentas O efeito surpreendente do HTML nas respostas do Claude
May 8, 2026