RiM: método de memória desbloqueia raciocínio latente em LLMs

Pesquisadores liderados por Lukas Aichberger e Sepp Hochreiter apresentaram, em 28 de maio de 2026, um novo método para raciocínio latente em grandes modelos de linguagem: o Reasoning in Memory (RiM).

Memória de trabalho como alternativa à geração autoregressiva

O método RiM propõe substituir a geração tradicional de passos intermediários — que depende do mecanismo autoregressivo — por blocos de memória: sequências fixas de tokens especiais que funcionam como uma “memória de trabalho” interna ao LLM. Inspirado no funcionamento da cognição humana, o RiM permite ao modelo manipular informações internamente, sem precisar externalizar cada pensamento.

Como funciona o Reasoning in Memory

O processo do RiM ocorre em duas etapas principais:

Treinamento com supervisão passo a passo: Inicialmente, o modelo é treinado para prever passos explícitos de raciocínio após cada bloco de memória, ancorando o uso desses blocos ao processo de solução.
Refino iterativo sem supervisão explícita: Em seguida, a supervisão de passos intermediários é descartada, e o modelo passa a refinar iterativamente apenas a resposta final, usando os blocos de memória para organizar o raciocínio interno.

Como os blocos são fixos, todo o raciocínio pode ser processado em um único forward pass, reduzindo o custo computacional em comparação com abordagens que geram cada passo de forma autoregressiva.

Resultados em benchmarks de raciocínio

Segundo os autores, experimentos realizados em benchmarks de raciocínio mostraram que o RiM iguala ou supera métodos latentes existentes, sem depender da geração de pensamentos intermediários. O método foi avaliado em modelos de diferentes famílias e tamanhos, indicando generalidade da abordagem. Os detalhes quantitativos dos resultados não foram divulgados no resumo.

Impacto e próximos passos

O Reasoning in Memory sugere um caminho para tornar o raciocínio de LLMs mais eficiente, reduzindo o tempo e o custo de inferência. A estratégia de usar memória de trabalho interna pode inspirar novos métodos para tarefas que exigem múltiplos passos de pensamento, aproximando o processamento das máquinas do funcionamento humano.

O método está disponível como preprint na arXiv, aguardando escrutínio e replicação pela comunidade.

Mais em Lançamentos

SubFit: compressão de LLM por submódulos melhora trade-off entre acurácia e tamanho
Novo método SubFit permite compressão pós-treinamento de LLMs selecionando submódulos de forma não contígua, mantendo até 84,6% da acurácia e reduzindo uso de recursos.
Jun 2, 2026
LongTraceRL propõe novo método para raciocínio de longo contexto em LLMs
LongTraceRL utiliza trajetórias de agentes de busca e recompensas rubricadas para aprimorar o raciocínio de longo contexto em LLMs, superando métodos tradicionais em benchmarks.
Jun 1, 2026
DharmaOCR adota Direct Preference Optimization para mitigar loops em OCR
DharmaOCR usa Direct Preference Optimization como segunda etapa de treinamento para reduzir loops de repetição em OCR de documentos em português, com queda média de 59% na degeneração textual.
Jun 3, 2026