Benchmark

SimpleAudit

Métrica: AUROC, variância de alvo, estabilidade de reruns

Execução

7 de maio de 2026

# Modelo Score Δ
01 Safe targets (SimpleAudit, Norwegian safety pack) Separação clara entre alvos seguros e abliterados AUROC 0.89–1.00
02 Borealis vs. Gemma 3 (caso de compra pública norueguesa) Não há ranking único, resultados variam por categoria Depende de categoria de cenário e métrica de risco

Um novo artigo publicado no arXiv em 7 de maio de 2026 propõe uma abordagem formal para comparar a segurança de LLMs mesmo quando não existem benchmarks rotulados para o idioma, setor ou contexto regulatório em questão. O estudo, conduzido por Sushant Gautam e colaboradores, introduz o conceito de benchmarkless comparative safety scoring e apresenta o instrumento SimpleAudit.

Validação sem rótulos: a cadeia de validade instrumental

Em vez de depender de concordância com rótulos de verdade-terra, a proposta substitui o critério tradicional por uma cadeia de validade instrumental: o método avalia a responsividade a contrastes controlados (entre alvos seguros e “abliterados”), a dominância da variância orientada ao alvo sobre artefatos do auditor ou juiz, e a estabilidade dos resultados ao longo de múltiplas execuções. No teste com um pacote norueguês de cenários de segurança, SimpleAudit mostrou separação clara entre alvos seguros e abliterados, com AUROC entre 0,89 e 1,00. A identidade do alvo foi o principal componente de variância (η² ≈ 0,52), e a estabilidade dos perfis foi alcançada após dez execuções.

Aplicação prática e limitações

O artigo demonstra o uso da cadeia de validade tanto com SimpleAudit quanto com Petri, destacando que diferenças substanciais aparecem antes do processo de validação, principalmente na adequação ao contrato de análise e ao contexto de uso. Em um estudo de caso envolvendo uma licitação pública norueguesa, a comparação entre os modelos Borealis e Gemma 3 mostrou que o “modelo mais seguro” varia conforme a categoria do cenário e a métrica de risco adotada. Por isso, os autores recomendam que relatórios incluam não só as pontuações, mas também detalhes sobre os auditores, juízes e configurações usadas.

O que falta esclarecer

O método depende da construção cuidadosa dos cenários e da transparência no relatório das condições do experimento. Ainda não há validação extensiva para outros idiomas ou setores além do caso norueguês apresentado. O repositório do SimpleAudit foi citado, mas o link oficial não estava disponível no momento da publicação.

Mais detalhes podem ser encontrados no artigo completo no arXiv.

Tags
  • #llm
  • #segurança
  • #benchmark
  • #simpleaudit