A JetBrains anunciou em 1º de junho o Mellum2, modelo Mixture-of-Experts (MoE) de 12 bilhões de parâmetros, projetado para tarefas em linguagem natural e código. O lançamento marca a expansão da linha Mellum, originalmente focada em autocompletar código, para casos de uso mais amplos em engenharia de software e sistemas de IA.

Arquitetura e eficiência

O Mellum2 utiliza arquitetura Mixture-of-Experts, ativando apenas 2,5 bilhões de parâmetros por token. Isso permite inferências rápidas e eficientes, atendendo demandas de alta frequência e baixa latência — um perfil comum em pipelines de RAG, orquestração de agentes e sistemas de roteamento. O modelo foi treinado do zero e liberado sob licença Apache 2.0, o que facilita adoção em ambientes privados ou sob requisitos de compliance.

Ao contrário de modelos multimodais, o Mellum2 é especializado em texto e código, o que reduz complexidade e custos para workloads tipicamente encontrados em IDEs, pipelines de recuperação e fluxos de agentes.

Casos de uso

Entre os cenários sugeridos pela JetBrains estão:

  • Roteamento e orquestração: classificação de prompts, seleção de ferramentas e controle de fluxo intermediário em sistemas multi-modelo.
  • Pipelines RAG: compressão de contexto, sumarização e pós-processamento de resultados recuperados, onde a latência é decisiva.
  • Subagentes: planejamento, validação e preparação de contexto — tarefas intermediárias que normalmente não justificam o uso de modelos de grande porte.
  • Implantações privadas: execução local em ambientes com dados sensíveis, aproveitando eficiência e abertura do modelo.

Benchmarks e desempenho

Segundo a JetBrains, o Mellum2 apresenta desempenho competitivo em benchmarks de geração de código, raciocínio, ciência e matemática, mantendo velocidade de inferência mais de duas vezes superior a modelos abertos de porte equivalente. Detalhes completos de arquitetura, treinamento e avaliação estão disponíveis no relatório técnico.

Stack modular e especialização

A JetBrains defende que arquiteturas especializadas — como a do Mellum2 — tornam stacks de IA mais rápidos, baratos e controláveis. O modelo não pretende substituir LLMs de fronteira, mas sim atuar como componente focal para tarefas de alta frequência e restritas a texto/código, em vez de sistemas monolíticos.

O Mellum2 já está disponível para download no Hugging Face.

Tags
  • #jetbrains
  • #mellum2
  • #mixture-of-experts
  • #code
  • #open-models