O Open ASR Leaderboard, plataforma aberta de avaliação de sistemas de reconhecimento automático de fala (ASR), anunciou em 6 de maio de 2026 a inclusão de conjuntos de dados privados, fornecidos pela Appen Inc. e DataoceanAI. A medida busca proteger a integridade do benchmark diante do crescente risco de “benchmaxxing” — otimização artificial dos modelos para o teste público, sem ganhos reais de robustez.
Novos datasets: variedade e controle
Os novos conjuntos cobrem inglês com diferentes sotaques (americano, britânico, australiano, canadense, indiano), em estilos tanto roteirizados quanto conversacionais. A curadoria envolveu controle de gênero, duração balanceada e transcrições detalhadas, incluindo disfluências e pontuação. Entre os exemplos:
- Appen Scripted (AU, CA, IN, US): gravações lidas, balanço de gênero, duração entre 1 e 1,5 hora por sotaque.
- Appen Conversational (IN, US): diálogos espontâneos, com disfluências, cerca de 1,4 a 1,6 hora.
- DataoceanAI Scripted e Conversational (US, GB): amostras entre 2,4 e 8,8 horas, incluindo sotaques britânicos e americanos.
Privacidade e transparência: equilíbrio delicado
Apesar de privados, os novos dados são acessíveis para avaliação via leaderboard. O objetivo é dificultar o uso dos mesmos dados no treinamento dos modelos, reduzindo o risco de contaminação do teste. A interface agora permite alternar entre métricas calculadas apenas sobre datasets públicos ou incluindo os privados — útil para observar diferenças de desempenho. A média padrão (Average WER) segue baseada apenas nos dados públicos, mas o usuário pode ativar a visualização com privados.
A equipe enfatiza que não há score individual por split privado, para evitar otimizações direcionadas por sotaque ou fornecedor. As médias específicas (roteirizado, conversacional, US/non-US) são calculadas por macroaverage, equilibrando o peso de cada fonte.
Padrão aberto, mas proteção contra distorções
O código de interface e scripts de avaliação seguem abertos, mantendo a filosofia colaborativa do projeto. Ao mesmo tempo, a decisão de manter parte dos dados reservados reflete uma preocupação crescente no setor: benchmarks excessivamente expostos tendem a ser explorados, perdendo poder discriminativo. A abordagem busca preservar a relevância do leaderboard como referência de desempenho realista em ASR.
Para quem importa
A atualização é relevante para desenvolvedores, pesquisadores e empresas que usam o Open ASR Leaderboard para comparar modelos, especialmente em contextos que exigem robustez além do inglês americano padrão.