Benchmark

OpAI-Bench

Métrica: acurácia de detecção em múltiplas granularidades (documento, sentença, token/span)

Execução

4 de junho de 2026

# Modelo Score Δ
01 8 detectores nível documento Cobertura de detecção em textos progressivamente editados por IA não divulgado
02 7 detectores nível sentença Avaliação em granularidade intermediária não divulgado
03 2 detectores nível token/span Foco em análise fina de autoria não divulgado

A detecção de textos gerados por IA enfrenta um novo desafio com a popularização de fluxos de trabalho colaborativos entre humanos e assistentes automáticos. O artigo “Operation-Guided Progressive Human-to-AI Text Transformation Benchmark for Multi-Granularity AI-Text Detection”, publicado em 4 de junho de 2026 no arXiv, apresenta o OpAI-Bench, um benchmark que busca preencher a lacuna entre detecção de autoria tradicional e os cenários modernos de coedição.

O que é o OpAI-Bench

O OpAI-Bench parte de documentos originalmente humanos e aplica até nove revisões sequenciais, sob diferentes níveis de cobertura IA e cinco tipos de operações de edição. Isso resulta em amostras intermediárias — nem inteiramente humanas, nem totalmente artificiais — com rastreabilidade de autoria preservada em múltiplas granularidades: documento, sentença, token e span.

O conjunto cobre quatro domínios de texto e permite avaliação com oito detectores de autoria IA em nível de documento, sete em nível de sentença e dois em nível de token ou span.

Principais descobertas

Os experimentos mostraram que a detectabilidade de autoria IA depende não só da proporção de texto editado por máquinas, mas também do tipo de operação, do domínio e do histórico cumulativo de revisões. Um resultado relevante é o comportamento não monotônico: versões intermediárias — aquelas com autoria mista — são frequentemente mais difíceis de identificar do que textos puramente humanos ou majoritariamente IA, contrariando pressupostos dos benchmarks anteriores.

Implicações para detectores de IA

Benchmarks tradicionais testam modelos apenas nos extremos do espectro — textos 100% humanos ou 100% IA. O OpAI-Bench revela que esses detectores podem falhar justamente onde a detecção é mais necessária: em documentos híbridos e versões de trabalho, comuns em ambientes corporativos, acadêmicos e jornalísticos. O benchmark também destaca que a eficácia dos detectores varia conforme a granularidade e o tipo de edição, sugerindo que métricas globais podem mascarar vulnerabilidades práticas.

Disponibilidade e próximos passos

O código e os dados do OpAI-Bench estão disponíveis publicamente, permitindo que desenvolvedores de detectores e pesquisadores testem seus sistemas em cenários realistas de coedição e adaptem algoritmos para lidar com autoria distribuída. O benchmark inaugura uma nova referência para avaliação de detectores em fluxos progressivos, estabelecendo um padrão mais próximo da prática atual de escrita assistida por IA.

Tags
  • #benchmark
  • #detecção de IA
  • #opai-bench
  • #autoria mista