A OpenAI detalhou em post técnico como reestruturou sua infraestrutura para entregar experiências de voz em tempo real com baixa latência. O desafio decorre do crescimento do ChatGPT voice, da API Realtime e de agentes que exigem respostas instantâneas para mais de 900 milhões de usuários semanais.

Desafios de escala e latência

Interações de voz só são naturais se acompanharem o ritmo da fala. A percepção de atrasos, jitter ou perda de pacotes compromete a experiência. Para manter a fluidez, a OpenAI precisou garantir alcance global, conexão rápida e estabilidade no tempo de ida e volta do áudio, minimizando variações e interrupções.

Arquitetura baseada em WebRTC

O time optou pelo WebRTC, padrão aberto para transmissão de áudio, vídeo e dados em tempo real. O protocolo traz suporte nativo a ICE para atravessar NATs, DTLS e SRTP para criptografia, negociação de codecs e recursos como controle de qualidade (RTCP), cancelamento de eco e buffer de jitter. Segundo a OpenAI, isso permite que clientes em diferentes plataformas usem uma base comum, enquanto a equipe foca na infraestrutura para conectar mídia em tempo real aos modelos de IA.

A experiência acumulada de engenheiros como Justin Uberti (co-arquiteto do WebRTC) e Sean DuBois (criador do Pion) foi incorporada à equipe, facilitando a integração entre protocolos de mídia e IA.

Da arquitetura SFU ao modelo transceiver

Embora SFUs (Selective Forwarding Units) sejam comuns em sistemas multiponto, como chamadas em grupo, a OpenAI optou por um modelo de transceiver para seus casos majoritariamente 1:1 (um usuário, um modelo). Nesse desenho, um serviço edge termina a conexão WebRTC, convertendo mídia e eventos em protocolos internos mais simples para inferência, transcrição e geração de fala. O transceiver centraliza o estado da sessão, como checks de conectividade (ICE), handshake DTLS e chaves SRTP, simplificando a escala e a manutenção da infraestrutura.

Integração com Kubernetes e desafios operacionais

A primeira implementação do transceiver, em Go sobre Pion, passou a atender ChatGPT voice, a API Realtime e projetos de pesquisa. O post sugere que a integração entre WebRTC e orquestração via Kubernetes trouxe desafios, especialmente em garantir baixa latência e estabilidade sob demanda global.

O que falta detalhar

O artigo não expõe métricas quantitativas de latência, nem especifica como são tratados casos extremos de perda de conexão ou congestionamento. Também não há detalhes sobre a interface entre o transceiver e backends de inferência.

A abordagem da OpenAI mostra como decisões arquiteturais em protocolos e infraestrutura tornam possível escalar voz em IA para centenas de milhões de usuários sem sacrificar a experiência.

Mais em Ferramentas

WebRTC e voz em LLMs: o que o usuário realmente quer?
Implementações de voz em LLMs priorizam latência, mas degradam a qualidade do áudio. Usuários pagantes preferem precisão, mesmo com atraso.
May 9, 2026
AU-Harness: benchmark de ASR bilíngue da ServiceNow-AI revela limites dos agentes de voz
Ferramenta da ServiceNow-AI avalia sete modelos de ASR em fala code-switching, cobrindo quatro pares de idiomas. Scribe V2, Gemini 3 Flash e AssemblyAI Universal 3-Pro lideram.
Jun 10, 2026
AWS detalha arquitetura para treinar e servir foundation models em larga escala
Post técnico da Amazon detalha como instâncias EC2 com GPUs NVIDIA, rede de alta largura e storage distribuído suportam workflows de foundation models com OSS.
May 14, 2026

Veja também

Lançamentos OpenAI anuncia datacenter Project Camellia na Geórgia com 3,2 GW
Jul 22, 2026
Lançamentos OpenAI lança GPT-Live: novo modelo de voz com interação contínua
Jul 8, 2026