A ServiceNow-AI anunciou em 4 de junho a chegada do EVA-Bench Data 2.0, atualização substancial do benchmark aberto para avaliação de voice agents em contextos empresariais. O novo release amplia a cobertura de cenários e ferramentas, tornando-se referência para desenvolvedores e equipes que buscam avaliar desempenho de agentes de voz em situações realistas.
Três domínios, 213 cenários, 121 ferramentas
O EVA-Bench Data 2.0 expande o escopo do benchmark original — antes restrito a um único domínio — para três áreas-chave: Airline Customer Service Management (CSM), Enterprise IT Service Management (ITSM) e Healthcare HR Service Delivery (HRSD). O conjunto cobre 213 cenários de avaliação, um salto de quase 4x em relação à versão anterior, e testa a capacidade dos agentes de voz em 121 ferramentas distintas. Entre os cenários, há workflows como reemissão de passagens aéreas, troubleshooting de TI corporativo e solicitações de licença médica, simulando situações que de fato ocorrem em operações empresariais.
Cada cenário foi validado para solvabilidade usando três modelos frontier: OpenAI GPT-5.4, Google Gemini 3.1 Pro e Anthropic Claude Opus 4.6, garantindo que o benchmark seja desafiador sem ser irrealista. Os datasets para cada domínio estão disponíveis abertamente para download e uso em pipelines de validação automatizada, via Hugging Face.
Metodologia: realismo e reprodutibilidade
O desenvolvimento do EVA-Bench seguiu cinco princípios: foco em tarefas realmente feitas via voz, realismo nos fluxos (incluindo políticas e APIs inspiradas em sistemas de produção), variedade de intents (incluindo chamadas adversariais e casos sem solução possível), autenticação calibrada para o contexto e reprodutibilidade rigorosa.
A geração dos cenários usa o pipeline SyGra, baseado em grafos e com GPT-5.4 como backbone. Cada cenário traz componentes gerados de forma conjunta — meta do usuário, fluxo de negociação e paths de autenticação — para evitar inconsistências. O design do benchmark força que cada cenário tenha um único caminho correto de resolução, eliminando ambiguidades e facilitando a comparação entre agentes.
O domínio Healthcare HRSD, por exemplo, incorpora políticas concretas do sistema de saúde dos EUA, como números NPI, FMLA e regras de seguro, aproximando o benchmark do que profissionais enfrentam no dia a dia.
Para quem serve e por que importa
O EVA-Bench Data 2.0 é útil para duas frentes: times que avaliam voice agents podem usar o conjunto para testar sistemas contra cenários variados e próximos do uso real; já equipes que criam seus próprios benchmarks encontram documentação detalhada do processo de geração e validação, servindo de referência técnica.
A abertura dos dados e a preocupação com reprodutibilidade permitem que resultados de diferentes empresas e modelos sejam comparáveis. O benchmark também prepara terreno para extensões multilíngues, prometidas para releases futuros, ampliando a relevância fora do universo anglófono.
No contexto brasileiro, benchmarks robustos e abertos como o EVA-Bench são especialmente relevantes para bancos, contact centers e operadoras de saúde que buscam validar agentes de voz em português — ainda que, por ora, o foco siga em inglês. A metodologia, no entanto, pode ser adaptada para novos idiomas e fluxos locais.
Próximos passos
A equipe da ServiceNow-AI antecipa uma extensão multilíngue do benchmark, o que deve ampliar sua utilidade em mercados globais. Enquanto isso, a versão 2.0 já estabelece um novo patamar de rigor e cobertura para avaliação de voice agents corporativos.