Item: vLLM
Rating: 4
Author: Redação IA

A ServiceNow-AI publicou uma análise detalhada sobre a migração do vLLM da versão 0 para a V1 em pipelines de reinforcement learning (RL), destacando desafios e soluções para garantir consistência entre as versões durante o treinamento.

Contexto e motivação

O vLLM é usado como motor de inferência no PipelineRL, responsável por gerar rollouts, amostrando tokens e retornando logprobs. Esses valores alimentam o cálculo de métricas essenciais para o treinamento, como policy ratios, KL, clip rate, entropia e reward. Qualquer diferença na forma como os logprobs são computados pode afetar a dinâmica do aprendizado por reforço.

Durante a migração do vLLM V0 (referência: 0.8.5) para V1 (testada em 0.18.1), foram observadas divergências entre o comportamento esperado e o obtido, levando a investigações sobre possíveis fontes de mismatch.

Principais ajustes para paridade

Quatro pontos foram identificados e corrigidos para alinhar o comportamento de V1 com o de V0:

Logprobs processados: Por padrão, o vLLM V1 retorna logprobs brutos do modelo, antes de aplicar pós-processamentos como temperature scaling e top-k/top-p. O PipelineRL esperava logprobs já processados. Definir explicitamente logprobs-mode=processed_logprobs eliminou o desvio médio observado nas trajetórias de rollout.
Configurações de execução: O V1 introduziu padrões de runtime diferentes, como prefix caching e agendamento assíncrono, que precisaram ser explicitamente desabilitados para garantir paridade:
- enable-prefix-caching: false
- async-scheduling: false
O prefix caching, em particular, pode introduzir diferenças ao reutilizar estados após updates de pesos, o que não ocorria na V0.
Sincronização de pesos durante updates: O fluxo de atualização de pesos (inflight weight-update) teve que ser ajustado para refletir o comportamento da V0, bloqueando a execução no momento certo sem invalidar explicitamente o cache de estados.
Projeção final em fp32: A configuração do lm_head em fp32 foi mantida para garantir compatibilidade de precisão na projeção final do modelo.

Resultados

Após os ajustes, métricas como clip rate, KL, entropia e reward da V1 convergiram para trajetórias próximas às da V0, demonstrando que a paridade pode ser atingida com configurações cuidadosas. O estudo evidencia que, antes de modificar objetivos de RL, é fundamental garantir a correção da infraestrutura de inferência.

Considerações

A migração entre versões de engines de inferência LLM, mesmo em projetos open source maduros, pode trazer desafios inesperados. A experiência relatada pela ServiceNow-AI ressalta a importância de testes rigorosos e de atenção a detalhes de configuração para evitar impactos negativos no treinamento.

Para equipes que utilizam vLLM em ambientes de RL, a recomendação é validar cuidadosamente a equivalência de métricas após qualquer atualização de engine.

Mais detalhes técnicos estão disponíveis na análise completa publicada pela ServiceNow-AI no blog da Hugging Face.

Mais em Ferramentas

AU-Harness: benchmark de ASR bilíngue da ServiceNow-AI revela limites dos agentes de voz
Ferramenta da ServiceNow-AI avalia sete modelos de ASR em fala code-switching, cobrindo quatro pares de idiomas. Scribe V2, Gemini 3 Flash e AssemblyAI Universal 3-Pro lideram.
Jun 10, 2026
Hugging Face Jobs para CI: alternativa viável ao GitHub Actions com GPU
Testamos a integração Hugging Face Jobs com GitHub Actions para CI em projetos de machine learning. Ganho de performance, acesso a GPU e setup detalhado.
Jun 10, 2026
Agents.md transforma Spaces do Hugging Face em blocos plugáveis para agentes
Novo padrão agents.md no Hugging Face permite que agentes componham pipelines multimídia sem integração manual. Avaliamos prós, contras e impacto para devs brasileiros.
Jun 9, 2026