Pesquisadores apresentaram, em 1º de junho de 2026, um novo método de compressão pós-treinamento para Large Language Models (LLMs) chamado SubFit. O diferencial da abordagem está na granularidade: em vez de remover ou substituir camadas inteiras de um modelo, o SubFit atua no nível de submódulos — especificamente, nas partes de atenção e feedforward dos transformadores.

O que é o SubFit

O SubFit (“Submodule-level Fitted residual replacement”) propõe selecionar submódulos de forma não contígua dentro do modelo, aplicando bypass residuais calibrados para cada componente selecionado. Isso permite que partes do modelo sejam comprimidas sem a necessidade de alterar blocos inteiros ou limitar-se a regiões contíguas de profundidade, como ocorre nos métodos tradicionais.

A técnica opera após o treinamento do modelo e requer apenas dados de calibração, tornando o processo adaptável e menos custoso em termos de recursos. O intuito é capturar melhor a redundância estrutural dos LLMs, que, segundo os autores, não está distribuída de forma uniforme nem restrita a regiões específicas.

Resultados sobre dez LLMs

O SubFit foi testado em dez modelos (cinco bases e cinco instruction-tuned), usando cinco níveis de esparsidade de 12,5% a 37,5%. Em todos os casos, o método superou quatro baselines de compressão por substituição avaliados. No nível de 25% de esparsidade, o SubFit manteve 84,6% da acurácia downstream do modelo denso, com degradação de perplexidade de 2,42x. Em comparação, o melhor baseline retinha 81,6% da acurácia, mas com degradação de perplexidade de 4,34x.

Além disso, o método trouxe ganhos práticos em velocidade de inferência e economia de KV-cache, fatores relevantes para aplicações em produção.

Disponibilidade e impacto

O código do SubFit foi disponibilizado pelos autores, facilitando a adoção em projetos que buscam reduzir custos computacionais sem sacrificar tanto a performance. O artigo sinaliza que a compressão inteligente de LLMs pode avançar além da estratégia de camadas inteiras, abrindo espaço para modelos mais leves e rápidos que atendam a restrições do mundo real.

A proposta interessa principalmente a equipes de engenharia e pesquisa que buscam soluções de compressão pós-treinamento, com impacto direto em deploys on-premises e edge.

Tags
  • #llm
  • #compressao
  • #subfit
  • #transformers