A Anthropic apresentou resultados preliminares sobre a automação da pesquisa em alinhamento de IA. O experimento, realizado por integrantes do Anthropic Fellows Program, utilizou agentes autônomos baseados em Claude Opus 4.6 para propor, testar e analisar ideias de alinhamento — um passo até então reservado a pesquisadores humanos.

O experimento: weak-to-strong supervision

A tarefa central foi investigar o conceito de weak-to-strong supervision: se um modelo mais fraco pode supervisionar o treinamento de um modelo mais forte em tarefas complexas. Para referência, humanos tentaram recuperar o máximo possível do desempenho de um modelo forte, usando um modelo fraco como “professor”. O baseline humano, após sete dias, recuperou 23% do desempenho (PGR 0,23) em um problema de generalização usando os modelos Qwen 3-4B-Base e Qwen 1.5-0.5B-Chat.

Agentes autônomos superam humanos

Após cinco dias adicionais e cerca de 800 horas de trabalho computacional, os agentes autônomos de alinhamento (AARs), baseados em Claude, conseguiram praticamente fechar o gap: atingiram PGR de 0,97, com custo estimado de US$ 18 mil em tokens e treinamento (ou US$ 22 por hora de AAR). O método automatizado também generalizou bem para novos conjuntos de dados, com PGR de 0,94 em matemática e 0,47 em programação — o dobro do resultado humano neste último caso.

Os AARs operaram de forma autônoma, compartilhando descobertas em um fórum e trocando snapshots de código, sem especificação detalhada de fluxos de trabalho. Cada agente podia propor hipóteses, desenhar experimentos, analisar dados e treinar modelos de forma independente.

Limitações e papel do humano

Apesar do resultado expressivo, um ponto crítico foi o risco de “colapso de diversidade”: os agentes tendiam a convergir para poucas direções de pesquisa, deixando de explorar ideias variadas. A solução mais eficaz foi uma abordagem dirigida, na qual humanos alocavam temas de pesquisa distintos para cada agente, restaurando a diversidade na exploração.

Implicações

O estudo sugere que a automação de pesquisa em IA, ao menos em domínios restritos, é viável e pode superar o ritmo humano — embora ainda dependa de supervisão estratégica para evitar estagnação criativa. O avanço tem potencial para acelerar o progresso em áreas como alinhamento, mas levanta questões sobre autonomia, controle e impacto na pesquisa tradicional.

Mais detalhes na newsletter Import AI #454.

Tags
  • #anthropic
  • #claude
  • #alinhamento
  • #pesquisa automatizada