13 de maio de 2026
| # | Modelo | Score | Δ | |
|---|---|---|---|---|
| 01 | 12 sistemas analisados (não identificados na fonte) Gap significativo entre desempenho máximo e confiável; robustez limitada a sotaque e ruído | Nenhum sistema excede 0,5 em EVA-A e EVA-X (pass@1) | — |
O artigo “EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents” apresenta um novo benchmark open source para avaliação de agentes de voz, submetido ao arXiv em 13 de maio de 2026. EVA-Bench busca preencher lacunas nos métodos de avaliação existentes, ao propor uma abordagem de ponta a ponta que simula conversas reais e mede falhas específicas de voz.
O que é o EVA-Bench
EVA-Bench integra simulação de diálogos de áudio entre bots, com validação automática para detectar e corrigir erros nos simuladores antes da pontuação. O framework abrange 213 cenários distintos em três domínios empresariais, incluindo uma suíte de perturbações controladas para testar robustez a sotaques e ruídos.
Métricas inéditas
O benchmark introduz duas métricas compostas:
- EVA-A (Accuracy): avalia conclusão de tarefas, fidelidade das respostas e qualidade do áudio.
- EVA-X (Experience): mede progressão da conversa, concisão e temporização das trocas. Essas métricas permitem comparar diretamente sistemas com diferentes arquiteturas.
Resultados iniciais
Foram avaliados 12 sistemas representando três arquiteturas distintas. Nenhum sistema superou 0,5 simultaneamente nas métricas EVA-A e EVA-X no critério pass@1. Os autores destacam ainda que há divergência acentuada entre desempenho máximo e confiável (mediana do gap de 0,44 em EVA-A), e que sotaques e ruídos continuam sendo desafios — com impacto médio em métricas chegando a 0,314.
Disponibilidade e próximos passos
O framework, a suíte de avaliação e os dados de benchmark estão disponíveis sob licença open source. Os autores classificam o trabalho como “work in progress”.
A proposta do EVA-Bench pode estabelecer novo padrão para avaliação de agentes de voz em ambientes empresariais, especialmente ao abordar robustez e experiência de usuário de forma integrada. Mais detalhes estão disponíveis no artigo original no arXiv.