Benchmark

PEFT-Arena

Métrica: trade-off entre downstream accuracy e retenção de capacidades

Execução

27 de maio de 2026

# Modelo Score Δ
01 Orthogonal Finetuning Melhor equilíbrio entre adaptação e retenção Pareto frontier mais favorável
02 Outros métodos PEFT Variedade de trade-offs sob o mesmo orçamento de parâmetros Perfis distintos de estabilidade-plasticidade

O artigo “PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective” propõe um novo benchmark para avaliar métodos de finetuning eficiente em LLMs, considerando não apenas o desempenho em tarefas-alvo, mas também a retenção das capacidades pré-treinadas do modelo original [fonte].

O que é o PEFT-Arena

A abordagem tradicional para avaliar métodos de parameter-efficient finetuning (PEFT) foca quase exclusivamente na acurácia final em tarefas específicas. Os autores argumentam que essa métrica ignora um elemento crucial: o quanto o modelo mantém de suas habilidades gerais após o ajuste fino. O PEFT-Arena introduz um benchmark que mede simultaneamente a adaptação ao alvo (plasticidade) e a resistência ao esquecimento (estabilidade), inspirando-se no dilema clássico de estabilidade-plasticidade da neurociência.

Principais achados

Os experimentos mostram que diferentes técnicas de PEFT apresentam perfis próprios de estabilidade e plasticidade. Entre os métodos avaliados, o orthogonal finetuning foi o que mais se destacou, atingindo a fronteira de Pareto mais favorável sob orçamentos de parâmetros equivalentes. Isso significa melhor equilíbrio entre aprender tarefas novas e preservar conhecimento anterior.

A análise técnica inclui perspectivas geométricas: no espaço dos pesos, a análise espectral revela interações entre as parametrizações e a estrutura do modelo pré-treinado; no espaço das ativações, métricas de retenção indicam o quanto o ajuste fino distorce (ou não) as representações gerais. O esquecimento se mostrou associado a distorções não-isométricas nas ativações do modelo.

O estudo também sugere que checkpoints finais de supervised finetuning (SFT) frequentemente “passam do ponto”, perdendo um equilíbrio melhor entre adaptação e retenção. Usando uma técnica de path-wise rewinding, os autores demonstram como é possível recuperar parte da performance original do modelo sem sacrificar o aprendizado da tarefa-alvo.

Para quem importa

Pesquisadores e engenheiros que trabalham com adaptação de LLMs ganham uma ferramenta mais completa para comparar métodos de PEFT, especialmente em aplicações onde a preservação de capacidades gerais é tão importante quanto a performance em tarefas específicas.

Tags
  • #peft
  • #benchmark
  • #finetuning
  • #stability-plasticity