EVA-Bench Data 2.0 expande teste de voice agents para três domínios

A ServiceNow-AI anunciou em 4 de junho a chegada do EVA-Bench Data 2.0, atualização substancial do benchmark aberto para avaliação de voice agents em contextos empresariais. O novo release amplia a cobertura de cenários e ferramentas, tornando-se referência para desenvolvedores e equipes que buscam avaliar desempenho de agentes de voz em situações realistas.

Três domínios, 213 cenários, 121 ferramentas

O EVA-Bench Data 2.0 expande o escopo do benchmark original — antes restrito a um único domínio — para três áreas-chave: Airline Customer Service Management (CSM), Enterprise IT Service Management (ITSM) e Healthcare HR Service Delivery (HRSD). O conjunto cobre 213 cenários de avaliação, um salto de quase 4x em relação à versão anterior, e testa a capacidade dos agentes de voz em 121 ferramentas distintas. Entre os cenários, há workflows como reemissão de passagens aéreas, troubleshooting de TI corporativo e solicitações de licença médica, simulando situações que de fato ocorrem em operações empresariais.

Cada cenário foi validado para solvabilidade usando três modelos frontier: OpenAI GPT-5.4, Google Gemini 3.1 Pro e Anthropic Claude Opus 4.6, garantindo que o benchmark seja desafiador sem ser irrealista. Os datasets para cada domínio estão disponíveis abertamente para download e uso em pipelines de validação automatizada, via Hugging Face.

Metodologia: realismo e reprodutibilidade

O desenvolvimento do EVA-Bench seguiu cinco princípios: foco em tarefas realmente feitas via voz, realismo nos fluxos (incluindo políticas e APIs inspiradas em sistemas de produção), variedade de intents (incluindo chamadas adversariais e casos sem solução possível), autenticação calibrada para o contexto e reprodutibilidade rigorosa.

A geração dos cenários usa o pipeline SyGra, baseado em grafos e com GPT-5.4 como backbone. Cada cenário traz componentes gerados de forma conjunta — meta do usuário, fluxo de negociação e paths de autenticação — para evitar inconsistências. O design do benchmark força que cada cenário tenha um único caminho correto de resolução, eliminando ambiguidades e facilitando a comparação entre agentes.

O domínio Healthcare HRSD, por exemplo, incorpora políticas concretas do sistema de saúde dos EUA, como números NPI, FMLA e regras de seguro, aproximando o benchmark do que profissionais enfrentam no dia a dia.

Para quem serve e por que importa

O EVA-Bench Data 2.0 é útil para duas frentes: times que avaliam voice agents podem usar o conjunto para testar sistemas contra cenários variados e próximos do uso real; já equipes que criam seus próprios benchmarks encontram documentação detalhada do processo de geração e validação, servindo de referência técnica.

A abertura dos dados e a preocupação com reprodutibilidade permitem que resultados de diferentes empresas e modelos sejam comparáveis. O benchmark também prepara terreno para extensões multilíngues, prometidas para releases futuros, ampliando a relevância fora do universo anglófono.

No contexto brasileiro, benchmarks robustos e abertos como o EVA-Bench são especialmente relevantes para bancos, contact centers e operadoras de saúde que buscam validar agentes de voz em português — ainda que, por ora, o foco siga em inglês. A metodologia, no entanto, pode ser adaptada para novos idiomas e fluxos locais.

Próximos passos

A equipe da ServiceNow-AI antecipa uma extensão multilíngue do benchmark, o que deve ampliar sua utilidade em mercados globais. Enquanto isso, a versão 2.0 já estabelece um novo patamar de rigor e cobertura para avaliação de voice agents corporativos.

Mais em Lançamentos

EvoArena: novo benchmark testa agentes LLM em ambientes dinâmicos
EvoArena propõe avaliação de agentes LLM em cenários com mudanças progressivas. EvoMem, novo paradigma de memória, mostra ganhos modestos, mas consistentes.
Jun 12, 2026
OpenAI Academy lança novos cursos para aplicação de IA no trabalho
OpenAI anuncia três cursos para capacitar equipes em IA aplicada: fundamentos, workflows repetíveis e uso de agentes, com parcerias corporativas.
Jun 12, 2026
Preply lança 'Lesson Insights' com OpenAI para personalizar o ensino de idiomas
Marketplace de ensino de idiomas integra API da OpenAI para gerar feedback personalizado, resumo de aulas e exercícios adaptativos. Iniciativa busca ampliar engajamento e eficiência de tutores.
Jun 12, 2026