Pesquisadores liderados por Lukas Aichberger e Sepp Hochreiter apresentaram, em 28 de maio de 2026, um novo método para raciocínio latente em grandes modelos de linguagem: o Reasoning in Memory (RiM).
Memória de trabalho como alternativa à geração autoregressiva
O método RiM propõe substituir a geração tradicional de passos intermediários — que depende do mecanismo autoregressivo — por blocos de memória: sequências fixas de tokens especiais que funcionam como uma “memória de trabalho” interna ao LLM. Inspirado no funcionamento da cognição humana, o RiM permite ao modelo manipular informações internamente, sem precisar externalizar cada pensamento.
Como funciona o Reasoning in Memory
O processo do RiM ocorre em duas etapas principais:
- Treinamento com supervisão passo a passo: Inicialmente, o modelo é treinado para prever passos explícitos de raciocínio após cada bloco de memória, ancorando o uso desses blocos ao processo de solução.
- Refino iterativo sem supervisão explícita: Em seguida, a supervisão de passos intermediários é descartada, e o modelo passa a refinar iterativamente apenas a resposta final, usando os blocos de memória para organizar o raciocínio interno.
Como os blocos são fixos, todo o raciocínio pode ser processado em um único forward pass, reduzindo o custo computacional em comparação com abordagens que geram cada passo de forma autoregressiva.
Resultados em benchmarks de raciocínio
Segundo os autores, experimentos realizados em benchmarks de raciocínio mostraram que o RiM iguala ou supera métodos latentes existentes, sem depender da geração de pensamentos intermediários. O método foi avaliado em modelos de diferentes famílias e tamanhos, indicando generalidade da abordagem. Os detalhes quantitativos dos resultados não foram divulgados no resumo.
Impacto e próximos passos
O Reasoning in Memory sugere um caminho para tornar o raciocínio de LLMs mais eficiente, reduzindo o tempo e o custo de inferência. A estratégia de usar memória de trabalho interna pode inspirar novos métodos para tarefas que exigem múltiplos passos de pensamento, aproximando o processamento das máquinas do funcionamento humano.
O método está disponível como preprint na arXiv, aguardando escrutínio e replicação pela comunidade.