RepoPeftBench
Métrica: Exact match (cross-repo e in-repo)
4 de junho de 2026
| # | Modelo | Score | Δ | |
|---|---|---|---|---|
| 01 | Code2LoRA-Static Empata com LoRA por repositório no cenário estático | 63.8% cross-repo / 66.2% in-repo | — | |
| 02 | Code2LoRA-Evo Ganho relevante em código em evolução | 60.3% cross-repo | +5.2pp vs. LoRA compartilhado |
O artigo “Code2LoRA: Hypernetwork-Generated Adapters for Code Language Models under Software Evolution” apresenta uma abordagem para injetar conhecimento de repositório em modelos de linguagem de código sem o custo de inputs longos ou fine-tuning caro. O método, batizado de Code2LoRA, utiliza hypernetworks para gerar adapters LoRA específicos para cada repositório, permitindo adaptação ágil mesmo diante de mudanças constantes no código.
Como funciona o Code2LoRA
Ao contrário das estratégias tradicionais — como recuperação via RAG ou fine-tuning/LoRA por repositório — o Code2LoRA emprega uma hypernetwork que, a partir do snapshot de um repositório, gera adapters LoRA que injetam o contexto necessário no modelo base. Isso elimina a necessidade de expandir a janela de contexto ou refazer o fine-tuning a cada alteração.
A proposta contempla dois cenários:
- Code2LoRA-Static: gera um adapter LoRA a partir de um snapshot estático do repositório. Ideal para projetos estáveis, onde as dependências raramente mudam.
- Code2LoRA-Evo: mantém um adapter atualizado via GRU, absorvendo cada diff do repositório. Assim, o modelo acompanha a evolução do código sem overhead de tokens na inferência.
Benchmark: RepoPeftBench
Para avaliar o método, os autores criaram o RepoPeftBench, benchmark composto por 604 repositórios Python. O dataset inclui:
- Trilha estática: 40 mil tarefas de treinamento e 12 mil de teste para preenchimento de asserções.
- Trilha de evolução: 215 mil tarefas de treino e 87 mil de teste, derivadas de commits reais.
No cenário estático, o Code2LoRA-Static alcançou 63,8% de acurácia cross-repo e 66,2% in-repo, equiparando-se ao limite superior obtido por LoRA individual por repositório. Já o Code2LoRA-Evo, na trilha evolutiva, atingiu 60,3% cross-repo, superando em 5,2 pontos percentuais um LoRA único compartilhado entre todos os projetos.
Leitura dos resultados
O ganho de Code2LoRA-Evo é mais pronunciado em ambientes onde o código está em constante mutação. O método elimina o trade-off entre custo e performance ao dispensar inputs longos e evitar múltiplos fine-tunings.
Por não adicionar tokens na inferência, a abordagem também reduz custos operacionais, especialmente relevante para empresas que mantêm múltiplos repositórios ativos.
Limitações e próximos passos
O artigo limita-se a repositórios em Python e tarefas de preenchimento de asserções. Não há, até o momento, validação em linguagens como Java ou C++, nem em tarefas de geração mais abertas. O código e checkpoints do modelo, bem como os datasets, foram disponibilizados pelos autores para pesquisa e reprodução.
Impacto prático
Para equipes que enfrentam problemas de escalabilidade de fine-tuning ou precisam de adaptação rápida a mudanças em bases de código, Code2LoRA surge como alternativa promissora. A abordagem pode acelerar pipelines de integração contínua e reduzir custos de manutenção de modelos de linguagem para código.