EVA-Bench: novo benchmark open source para agentes de voz

Benchmark

EVA-Bench

Métrica: EVA-A (Accuracy) e EVA-X (Experience)

Execução

13 de maio de 2026

#	Modelo	Score		Δ
01	12 sistemas analisados (não identificados na fonte) Gap significativo entre desempenho máximo e confiável; robustez limitada a sotaque e ruído	Nenhum sistema excede 0,5 em EVA-A e EVA-X (pass@1)		—

O artigo “EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents” apresenta um novo benchmark open source para avaliação de agentes de voz, submetido ao arXiv em 13 de maio de 2026. EVA-Bench busca preencher lacunas nos métodos de avaliação existentes, ao propor uma abordagem de ponta a ponta que simula conversas reais e mede falhas específicas de voz.

O que é o EVA-Bench

EVA-Bench integra simulação de diálogos de áudio entre bots, com validação automática para detectar e corrigir erros nos simuladores antes da pontuação. O framework abrange 213 cenários distintos em três domínios empresariais, incluindo uma suíte de perturbações controladas para testar robustez a sotaques e ruídos.

Métricas inéditas

O benchmark introduz duas métricas compostas:

EVA-A (Accuracy): avalia conclusão de tarefas, fidelidade das respostas e qualidade do áudio.
EVA-X (Experience): mede progressão da conversa, concisão e temporização das trocas. Essas métricas permitem comparar diretamente sistemas com diferentes arquiteturas.

Resultados iniciais

Foram avaliados 12 sistemas representando três arquiteturas distintas. Nenhum sistema superou 0,5 simultaneamente nas métricas EVA-A e EVA-X no critério pass@1. Os autores destacam ainda que há divergência acentuada entre desempenho máximo e confiável (mediana do gap de 0,44 em EVA-A), e que sotaques e ruídos continuam sendo desafios — com impacto médio em métricas chegando a 0,314.

Disponibilidade e próximos passos

O framework, a suíte de avaliação e os dados de benchmark estão disponíveis sob licença open source. Os autores classificam o trabalho como “work in progress”.

A proposta do EVA-Bench pode estabelecer novo padrão para avaliação de agentes de voz em ambientes empresariais, especialmente ao abordar robustez e experiência de usuário de forma integrada. Mais detalhes estão disponíveis no artigo original no arXiv.

Mais em Benchmarks

Um terço dos papers recentes no arXiv soa como texto de máquina
Análise de 12.750 artigos mostra que 32% dos textos submetidos ao arXiv soam como escritos por IA, com variação acentuada entre áreas. Computer science lidera com 65%.
Jul 20, 2026
QANTA 2026: agentes task-specific lideram com GPT-4o-mini
Equipe liderada por Nirjhar Das conquista o topo do QANTA 2026 com arquitetura dual baseada em GPT-4o-mini e estratégias calibradas para tossup e bonus.
Jul 13, 2026
Tradução em tempo real de língua de sinais: benchmark com SHuBERT-ByT5
Novo sistema de tradução de língua de sinais atinge BLEU 15.9 e BLEURT 44.7 em sentenças completas, com latência reduzida em 27%. Stack usa SHuBERT-ByT5 e streaming otimizado.
Jul 13, 2026

Veja também

Lançamentos MosaicLeaks: nova tarefa testa privacidade de agentes de pesquisa
Jun 18, 2026
Lançamentos EvoArena: novo benchmark testa agentes LLM em ambientes dinâmicos
Jun 12, 2026