Benchmark

LongMemEval (amostra de 116 questões)

Métrica: acurácia de resposta correta

Execução

14 de maio de 2026

# Modelo Score Δ
01 Chronos (grep) Grep superou retrieval vetorial em ambos experimentos maior acurácia entre métodos testados
02 Chronos (vector) Desempenho caiu diante de distrações inferior ao grep
03 Provider-native CLI (Claude Code, Codex, Gemini CLI, grep) Resultados dependem do fluxo de integração varia conforme harness e estilo de chamada

Um estudo publicado em 14 de maio de 2026 analisou como diferentes estratégias de recuperação de informação impactam o desempenho de agentes baseados em LLMs em tarefas de busca agentica. O trabalho, assinado por Sahil Sen e colaboradores, aborda um ponto negligenciado na literatura: a influência do método de recuperação (grep vs. retrieval vetorial) em diferentes arquiteturas e fluxos de integração.

Metodologia

Foram conduzidos dois experimentos principais. No primeiro, grep e retrieval vetorial foram comparados em uma amostra de 116 questões do LongMemEval, usando tanto o harness customizado Chronos quanto interfaces de linha de comando nativas dos provedores (Claude Code, Codex e Gemini CLI). Os testes consideraram resultados de ferramentas apresentados inline ou em arquivos lidos separadamente pelo modelo.

O segundo experimento avaliou o impacto de inserir conversas irrelevantes junto aos trechos relevantes, simulando cenários com mais ruído. Grep e retrieval vetorial foram testados isoladamente enquanto aumentava-se a quantidade de distrações ao redor da consulta.

Resultados

O grep apresentou acurácia superior ao retrieval vetorial na maioria dos cenários testados, tanto no Chronos quanto nas CLIs dos provedores. Contudo, os autores destacam que o desempenho absoluto depende fortemente do harness utilizado e do estilo de chamada das ferramentas — ou seja, mesmo com os mesmos dados, a integração e o fluxo de informação podem alterar o resultado final.

Além disso, o estudo mostra que retrieval vetorial é mais sensível à presença de texto irrelevante, sofrendo maiores quedas de desempenho à medida que ruídos são inseridos nas buscas.

Limitações e próximos passos

O artigo não detalha números absolutos de acurácia por modelo na versão pública, focando em tendências gerais e dependência do fluxo de integração. Faltam benchmarks em outros domínios e testes com bases de dados mais extensas.

O trabalho está disponível no arXiv (fonte).

Tags
  • #benchmark
  • #grep
  • #retrieval
  • #agentic search
  • #LLM