A JetBrains anunciou em 1º de junho o Mellum2, modelo Mixture-of-Experts (MoE) de 12 bilhões de parâmetros, projetado para tarefas em linguagem natural e código. O lançamento marca a expansão da linha Mellum, originalmente focada em autocompletar código, para casos de uso mais amplos em engenharia de software e sistemas de IA.
Arquitetura e eficiência
O Mellum2 utiliza arquitetura Mixture-of-Experts, ativando apenas 2,5 bilhões de parâmetros por token. Isso permite inferências rápidas e eficientes, atendendo demandas de alta frequência e baixa latência — um perfil comum em pipelines de RAG, orquestração de agentes e sistemas de roteamento. O modelo foi treinado do zero e liberado sob licença Apache 2.0, o que facilita adoção em ambientes privados ou sob requisitos de compliance.
Ao contrário de modelos multimodais, o Mellum2 é especializado em texto e código, o que reduz complexidade e custos para workloads tipicamente encontrados em IDEs, pipelines de recuperação e fluxos de agentes.
Casos de uso
Entre os cenários sugeridos pela JetBrains estão:
- Roteamento e orquestração: classificação de prompts, seleção de ferramentas e controle de fluxo intermediário em sistemas multi-modelo.
- Pipelines RAG: compressão de contexto, sumarização e pós-processamento de resultados recuperados, onde a latência é decisiva.
- Subagentes: planejamento, validação e preparação de contexto — tarefas intermediárias que normalmente não justificam o uso de modelos de grande porte.
- Implantações privadas: execução local em ambientes com dados sensíveis, aproveitando eficiência e abertura do modelo.
Benchmarks e desempenho
Segundo a JetBrains, o Mellum2 apresenta desempenho competitivo em benchmarks de geração de código, raciocínio, ciência e matemática, mantendo velocidade de inferência mais de duas vezes superior a modelos abertos de porte equivalente. Detalhes completos de arquitetura, treinamento e avaliação estão disponíveis no relatório técnico.
Stack modular e especialização
A JetBrains defende que arquiteturas especializadas — como a do Mellum2 — tornam stacks de IA mais rápidos, baratos e controláveis. O modelo não pretende substituir LLMs de fronteira, mas sim atuar como componente focal para tarefas de alta frequência e restritas a texto/código, em vez de sistemas monolíticos.
O Mellum2 já está disponível para download no Hugging Face.