SimpleAudit
Métrica: AUROC, variância de alvo, estabilidade de reruns
7 de maio de 2026
| # | Modelo | Score | Δ | |
|---|---|---|---|---|
| 01 | Safe targets (SimpleAudit, Norwegian safety pack) Separação clara entre alvos seguros e abliterados | AUROC 0.89–1.00 | — | |
| 02 | Borealis vs. Gemma 3 (caso de compra pública norueguesa) Não há ranking único, resultados variam por categoria | Depende de categoria de cenário e métrica de risco | — |
Um novo artigo publicado no arXiv em 7 de maio de 2026 propõe uma abordagem formal para comparar a segurança de LLMs mesmo quando não existem benchmarks rotulados para o idioma, setor ou contexto regulatório em questão. O estudo, conduzido por Sushant Gautam e colaboradores, introduz o conceito de benchmarkless comparative safety scoring e apresenta o instrumento SimpleAudit.
Validação sem rótulos: a cadeia de validade instrumental
Em vez de depender de concordância com rótulos de verdade-terra, a proposta substitui o critério tradicional por uma cadeia de validade instrumental: o método avalia a responsividade a contrastes controlados (entre alvos seguros e “abliterados”), a dominância da variância orientada ao alvo sobre artefatos do auditor ou juiz, e a estabilidade dos resultados ao longo de múltiplas execuções. No teste com um pacote norueguês de cenários de segurança, SimpleAudit mostrou separação clara entre alvos seguros e abliterados, com AUROC entre 0,89 e 1,00. A identidade do alvo foi o principal componente de variância (η² ≈ 0,52), e a estabilidade dos perfis foi alcançada após dez execuções.
Aplicação prática e limitações
O artigo demonstra o uso da cadeia de validade tanto com SimpleAudit quanto com Petri, destacando que diferenças substanciais aparecem antes do processo de validação, principalmente na adequação ao contrato de análise e ao contexto de uso. Em um estudo de caso envolvendo uma licitação pública norueguesa, a comparação entre os modelos Borealis e Gemma 3 mostrou que o “modelo mais seguro” varia conforme a categoria do cenário e a métrica de risco adotada. Por isso, os autores recomendam que relatórios incluam não só as pontuações, mas também detalhes sobre os auditores, juízes e configurações usadas.
O que falta esclarecer
O método depende da construção cuidadosa dos cenários e da transparência no relatório das condições do experimento. Ainda não há validação extensiva para outros idiomas ou setores além do caso norueguês apresentado. O repositório do SimpleAudit foi citado, mas o link oficial não estava disponível no momento da publicação.
Mais detalhes podem ser encontrados no artigo completo no arXiv.