OpAI-Bench: novo benchmark avalia detecção de texto IA em revisões progressivas

Benchmark

OpAI-Bench

Métrica: acurácia de detecção em múltiplas granularidades (documento, sentença, token/span)

Execução

4 de junho de 2026

#	Modelo	Score	Δ
01	8 detectores nível documento Cobertura de detecção em textos progressivamente editados por IA	não divulgado	—
02	7 detectores nível sentença Avaliação em granularidade intermediária	não divulgado	—
03	2 detectores nível token/span Foco em análise fina de autoria	não divulgado	—

A detecção de textos gerados por IA enfrenta um novo desafio com a popularização de fluxos de trabalho colaborativos entre humanos e assistentes automáticos. O artigo “Operation-Guided Progressive Human-to-AI Text Transformation Benchmark for Multi-Granularity AI-Text Detection”, publicado em 4 de junho de 2026 no arXiv, apresenta o OpAI-Bench, um benchmark que busca preencher a lacuna entre detecção de autoria tradicional e os cenários modernos de coedição.

O que é o OpAI-Bench

O OpAI-Bench parte de documentos originalmente humanos e aplica até nove revisões sequenciais, sob diferentes níveis de cobertura IA e cinco tipos de operações de edição. Isso resulta em amostras intermediárias — nem inteiramente humanas, nem totalmente artificiais — com rastreabilidade de autoria preservada em múltiplas granularidades: documento, sentença, token e span.

O conjunto cobre quatro domínios de texto e permite avaliação com oito detectores de autoria IA em nível de documento, sete em nível de sentença e dois em nível de token ou span.

Principais descobertas

Os experimentos mostraram que a detectabilidade de autoria IA depende não só da proporção de texto editado por máquinas, mas também do tipo de operação, do domínio e do histórico cumulativo de revisões. Um resultado relevante é o comportamento não monotônico: versões intermediárias — aquelas com autoria mista — são frequentemente mais difíceis de identificar do que textos puramente humanos ou majoritariamente IA, contrariando pressupostos dos benchmarks anteriores.

Implicações para detectores de IA

Benchmarks tradicionais testam modelos apenas nos extremos do espectro — textos 100% humanos ou 100% IA. O OpAI-Bench revela que esses detectores podem falhar justamente onde a detecção é mais necessária: em documentos híbridos e versões de trabalho, comuns em ambientes corporativos, acadêmicos e jornalísticos. O benchmark também destaca que a eficácia dos detectores varia conforme a granularidade e o tipo de edição, sugerindo que métricas globais podem mascarar vulnerabilidades práticas.

Disponibilidade e próximos passos

O código e os dados do OpAI-Bench estão disponíveis publicamente, permitindo que desenvolvedores de detectores e pesquisadores testem seus sistemas em cenários realistas de coedição e adaptem algoritmos para lidar com autoria distribuída. O benchmark inaugura uma nova referência para avaliação de detectores em fluxos progressivos, estabelecendo um padrão mais próximo da prática atual de escrita assistida por IA.

Mais em Benchmarks

LLMs ainda falham em probabilidade contraintuitiva, diz novo benchmark
Estudo testa 8 LLMs em problemas clássicos e contraintuitivos de probabilidade. Precisão cai de 96% para 59% em exercícios que desafiam heurísticas.
Jun 8, 2026
Code2LoRA: hypernetworks para LoRA batem fine-tuning em benchmark de código
Novo método Code2LoRA usa hypernetworks para gerar adapters LoRA específicos por repositório, superando abordagens tradicionais em benchmark com 604 projetos Python.
Jun 5, 2026
ClinEnv: benchmark interativo avalia LLMs em prontuários médicos reais
Novo ambiente ClinEnv mede como LLMs atuam como médicos em cenários reais de internação, avaliando tanto decisões quanto o processo de coleta de informações.
Jun 2, 2026