A ServiceNow-AI publicou uma análise detalhada sobre a migração do vLLM da versão 0 para a V1 em pipelines de reinforcement learning (RL), destacando desafios e soluções para garantir consistência entre as versões durante o treinamento.
Contexto e motivação
O vLLM é usado como motor de inferência no PipelineRL, responsável por gerar rollouts, amostrando tokens e retornando logprobs. Esses valores alimentam o cálculo de métricas essenciais para o treinamento, como policy ratios, KL, clip rate, entropia e reward. Qualquer diferença na forma como os logprobs são computados pode afetar a dinâmica do aprendizado por reforço.
Durante a migração do vLLM V0 (referência: 0.8.5) para V1 (testada em 0.18.1), foram observadas divergências entre o comportamento esperado e o obtido, levando a investigações sobre possíveis fontes de mismatch.
Principais ajustes para paridade
Quatro pontos foram identificados e corrigidos para alinhar o comportamento de V1 com o de V0:
-
Logprobs processados: Por padrão, o vLLM V1 retorna logprobs brutos do modelo, antes de aplicar pós-processamentos como temperature scaling e top-k/top-p. O PipelineRL esperava logprobs já processados. Definir explicitamente
logprobs-mode=processed_logprobseliminou o desvio médio observado nas trajetórias de rollout. -
Configurações de execução: O V1 introduziu padrões de runtime diferentes, como prefix caching e agendamento assíncrono, que precisaram ser explicitamente desabilitados para garantir paridade:
enable-prefix-caching: falseasync-scheduling: false
O prefix caching, em particular, pode introduzir diferenças ao reutilizar estados após updates de pesos, o que não ocorria na V0.
-
Sincronização de pesos durante updates: O fluxo de atualização de pesos (inflight weight-update) teve que ser ajustado para refletir o comportamento da V0, bloqueando a execução no momento certo sem invalidar explicitamente o cache de estados.
-
Projeção final em fp32: A configuração do lm_head em fp32 foi mantida para garantir compatibilidade de precisão na projeção final do modelo.
Resultados
Após os ajustes, métricas como clip rate, KL, entropia e reward da V1 convergiram para trajetórias próximas às da V0, demonstrando que a paridade pode ser atingida com configurações cuidadosas. O estudo evidencia que, antes de modificar objetivos de RL, é fundamental garantir a correção da infraestrutura de inferência.
Considerações
A migração entre versões de engines de inferência LLM, mesmo em projetos open source maduros, pode trazer desafios inesperados. A experiência relatada pela ServiceNow-AI ressalta a importância de testes rigorosos e de atenção a detalhes de configuração para evitar impactos negativos no treinamento.
Para equipes que utilizam vLLM em ambientes de RL, a recomendação é validar cuidadosamente a equivalência de métricas após qualquer atualização de engine.
Mais detalhes técnicos estão disponíveis na análise completa publicada pela ServiceNow-AI no blog da Hugging Face.