SubFit: compressão de LLM por submódulos melhora trade-off entre acurácia e tamanho

Pesquisadores apresentaram, em 1º de junho de 2026, um novo método de compressão pós-treinamento para Large Language Models (LLMs) chamado SubFit. O diferencial da abordagem está na granularidade: em vez de remover ou substituir camadas inteiras de um modelo, o SubFit atua no nível de submódulos — especificamente, nas partes de atenção e feedforward dos transformadores.

O que é o SubFit

O SubFit (“Submodule-level Fitted residual replacement”) propõe selecionar submódulos de forma não contígua dentro do modelo, aplicando bypass residuais calibrados para cada componente selecionado. Isso permite que partes do modelo sejam comprimidas sem a necessidade de alterar blocos inteiros ou limitar-se a regiões contíguas de profundidade, como ocorre nos métodos tradicionais.

A técnica opera após o treinamento do modelo e requer apenas dados de calibração, tornando o processo adaptável e menos custoso em termos de recursos. O intuito é capturar melhor a redundância estrutural dos LLMs, que, segundo os autores, não está distribuída de forma uniforme nem restrita a regiões específicas.

Resultados sobre dez LLMs

O SubFit foi testado em dez modelos (cinco bases e cinco instruction-tuned), usando cinco níveis de esparsidade de 12,5% a 37,5%. Em todos os casos, o método superou quatro baselines de compressão por substituição avaliados. No nível de 25% de esparsidade, o SubFit manteve 84,6% da acurácia downstream do modelo denso, com degradação de perplexidade de 2,42x. Em comparação, o melhor baseline retinha 81,6% da acurácia, mas com degradação de perplexidade de 4,34x.

Além disso, o método trouxe ganhos práticos em velocidade de inferência e economia de KV-cache, fatores relevantes para aplicações em produção.

Disponibilidade e impacto

O código do SubFit foi disponibilizado pelos autores, facilitando a adoção em projetos que buscam reduzir custos computacionais sem sacrificar tanto a performance. O artigo sinaliza que a compressão inteligente de LLMs pode avançar além da estratégia de camadas inteiras, abrindo espaço para modelos mais leves e rápidos que atendam a restrições do mundo real.

A proposta interessa principalmente a equipes de engenharia e pesquisa que buscam soluções de compressão pós-treinamento, com impacto direto em deploys on-premises e edge.

Mais em Lançamentos

AdaCodec propõe código visual preditivo para MLLMs de vídeo
AdaCodec reduz redundância em vídeos para MLLMs ao transmitir apenas mudanças entre quadros, superando baseline em 11 benchmarks.
Jun 2, 2026
LongTraceRL propõe novo método para raciocínio de longo contexto em LLMs
LongTraceRL utiliza trajetórias de agentes de busca e recompensas rubricadas para aprimorar o raciocínio de longo contexto em LLMs, superando métodos tradicionais em benchmarks.
Jun 1, 2026
RiM: método de memória desbloqueia raciocínio latente em LLMs
Novo método Reasoning in Memory substitui geração autoregressiva por blocos de memória fixos, tornando raciocínio latente mais eficiente em grandes modelos de linguagem.
May 29, 2026