A OpenAI detalhou em post técnico como reestruturou sua infraestrutura para entregar experiências de voz em tempo real com baixa latência. O desafio decorre do crescimento do ChatGPT voice, da API Realtime e de agentes que exigem respostas instantâneas para mais de 900 milhões de usuários semanais.
Desafios de escala e latência
Interações de voz só são naturais se acompanharem o ritmo da fala. A percepção de atrasos, jitter ou perda de pacotes compromete a experiência. Para manter a fluidez, a OpenAI precisou garantir alcance global, conexão rápida e estabilidade no tempo de ida e volta do áudio, minimizando variações e interrupções.
Arquitetura baseada em WebRTC
O time optou pelo WebRTC, padrão aberto para transmissão de áudio, vídeo e dados em tempo real. O protocolo traz suporte nativo a ICE para atravessar NATs, DTLS e SRTP para criptografia, negociação de codecs e recursos como controle de qualidade (RTCP), cancelamento de eco e buffer de jitter. Segundo a OpenAI, isso permite que clientes em diferentes plataformas usem uma base comum, enquanto a equipe foca na infraestrutura para conectar mídia em tempo real aos modelos de IA.
A experiência acumulada de engenheiros como Justin Uberti (co-arquiteto do WebRTC) e Sean DuBois (criador do Pion) foi incorporada à equipe, facilitando a integração entre protocolos de mídia e IA.
Da arquitetura SFU ao modelo transceiver
Embora SFUs (Selective Forwarding Units) sejam comuns em sistemas multiponto, como chamadas em grupo, a OpenAI optou por um modelo de transceiver para seus casos majoritariamente 1:1 (um usuário, um modelo). Nesse desenho, um serviço edge termina a conexão WebRTC, convertendo mídia e eventos em protocolos internos mais simples para inferência, transcrição e geração de fala. O transceiver centraliza o estado da sessão, como checks de conectividade (ICE), handshake DTLS e chaves SRTP, simplificando a escala e a manutenção da infraestrutura.
Integração com Kubernetes e desafios operacionais
A primeira implementação do transceiver, em Go sobre Pion, passou a atender ChatGPT voice, a API Realtime e projetos de pesquisa. O post sugere que a integração entre WebRTC e orquestração via Kubernetes trouxe desafios, especialmente em garantir baixa latência e estabilidade sob demanda global.
O que falta detalhar
O artigo não expõe métricas quantitativas de latência, nem especifica como são tratados casos extremos de perda de conexão ou congestionamento. Também não há detalhes sobre a interface entre o transceiver e backends de inferência.
A abordagem da OpenAI mostra como decisões arquiteturais em protocolos e infraestrutura tornam possível escalar voz em IA para centenas de milhões de usuários sem sacrificar a experiência.