Item: AU-Harness
Rating: 4
Author: Redação IA

A ServiceNow-AI lançou um benchmark próprio para avaliar a performance de sistemas de reconhecimento automático de fala (ASR) em contextos de code-switching — quando o locutor alterna entre dois idiomas na mesma frase ou diálogo. O estudo, publicado em 9 de junho de 2026, responde à demanda de clientes empresariais que atendem bases bilíngues e precisam saber se agentes de voz conseguem lidar com esse padrão linguístico comum, mas pouco explorado em benchmarks tradicionais.

O desafio do code-switching em ASR

Mais da metade da população mundial é bilíngue e alternar entre línguas — especialmente em ambientes corporativos, call centers e helpdesks — é uma prática comum. Apesar disso, a maioria dos benchmarks de ASR ainda foca em dados monolíngues ou em mistura artificial de idiomas, sem simular o code-switching natural e espontâneo de interações reais.

A ServiceNow-AI construiu um pipeline de dados com base em interações reais de suporte de TI e RH, criando frases code-switched por meio de prompts em LLMs (usando GPT-5), com revisão final feita por linguistas nativos das línguas de base. O dataset cobre quatro pares: espanhol-inglês, francês-inglês, francês canadense-inglês e alemão-inglês. Cada registro contém de 12 a 40 palavras, exigindo pelo menos três palavras ‘switcháveis’ para garantir que o code-switching seja significativo e não apenas resultado de entidades (como emails ou IDs).

Metodologia e métricas

A avaliação utilizou três métricas principais:

Word Error Rate (WER): métrica padrão de ASR, mede acurácia literal.
Semantic Word Error Rate (SWER): adapta o WER para considerar erros que afetam o sentido, com julgamento automatizado via LLM (Gemma-4-31B).
Answer Error Rate (AER): avalia se erros de transcrição levam a falhas funcionais em tarefas downstream, como responder perguntas sobre o conteúdo.

Sete sistemas de ASR foram testados: AssemblyAI Universal 3-Pro, Deepgram Nova 3 Multilang, ElevenLabs Scribe V2, Google Gemini 3 Flash, Mistral AI Voxtral Small, Nvidia Parakeet TDT, e OpenAI Whisper Large V3 Turbo.

Resultados: quem lida melhor com code-switching

Os resultados mostram que o custo do code-switching varia conforme o par de idiomas e o modelo. Entre os sistemas testados, ElevenLabs Scribe V2, Google Gemini 3 Flash e AssemblyAI Universal 3-Pro apresentaram os melhores desempenhos nas métricas WER, SWER e AER, superando concorrentes como Deepgram, Nvidia Parakeet e OpenAI Whisper em diversos cenários.

A diferença de performance entre pares de idiomas é relevante: certos modelos perdem mais precisão ao alternar entre alemão e inglês do que entre espanhol e inglês, por exemplo. O estudo reforça que não basta ser “multilíngue” — é preciso treinar e avaliar explicitamente o modelo para contextos bilíngues naturais.

Para quem serve e por que importa

O AU-Harness é relevante para empresas que atendem clientes em ambientes bilíngues e precisam de agentes de voz robustos a code-switching — especialmente em setores como TI, RH e suporte ao cliente. O uso de métricas semânticas e funcionais vai além do tradicional WER e aproxima o benchmark das necessidades reais de negócios, onde um erro de transcrição pode gerar impacto operacional direto.

Para o mercado brasileiro, a ausência de pares envolvendo o português limita a aplicabilidade imediata, mas o framework serve de referência para quem busca avaliar ou treinar modelos próprios em code-switching. O lançamento indica um avanço em benchmarks de ASR e pode pressionar concorrentes a ampliar cobertura para outros pares linguísticos e domínios.

Mais em Ferramentas

Open ASR Leaderboard adiciona datasets privados para evitar benchmaxxing
Plataforma de benchmarking de ASR incorpora conjuntos de dados privados da Appen e DataoceanAI para reduzir riscos de otimização artificial. Novos filtros de avaliação.
May 6, 2026
WebRTC e voz em LLMs: o que o usuário realmente quer?
Implementações de voz em LLMs priorizam latência, mas degradam a qualidade do áudio. Usuários pagantes preferem precisão, mesmo com atraso.
May 9, 2026
Migração do vLLM de V0 para V1: foco em correção na inferência RL
Estudo da ServiceNow-AI detalha ajustes necessários para garantir paridade entre vLLM V0 e V1 em pipelines de RL, com ênfase na consistência dos logprobs e configurações de inferência.
May 7, 2026

Veja também

Benchmarks EVA-Bench: novo benchmark open source para agentes de voz
May 14, 2026
Lançamentos EvoArena: novo benchmark testa agentes LLM em ambientes dinâmicos
Jun 12, 2026