Grep supera retrieval vetorial em buscas agenticas, aponta estudo

Benchmark

LongMemEval (amostra de 116 questões)

Métrica: acurácia de resposta correta

Execução

14 de maio de 2026

#	Modelo	Score	Δ
01	Chronos (grep) Grep superou retrieval vetorial em ambos experimentos	maior acurácia entre métodos testados	—
02	Chronos (vector) Desempenho caiu diante de distrações	inferior ao grep	—
03	Provider-native CLI (Claude Code, Codex, Gemini CLI, grep) Resultados dependem do fluxo de integração	varia conforme harness e estilo de chamada	—

Um estudo publicado em 14 de maio de 2026 analisou como diferentes estratégias de recuperação de informação impactam o desempenho de agentes baseados em LLMs em tarefas de busca agentica. O trabalho, assinado por Sahil Sen e colaboradores, aborda um ponto negligenciado na literatura: a influência do método de recuperação (grep vs. retrieval vetorial) em diferentes arquiteturas e fluxos de integração.

Metodologia

Foram conduzidos dois experimentos principais. No primeiro, grep e retrieval vetorial foram comparados em uma amostra de 116 questões do LongMemEval, usando tanto o harness customizado Chronos quanto interfaces de linha de comando nativas dos provedores (Claude Code, Codex e Gemini CLI). Os testes consideraram resultados de ferramentas apresentados inline ou em arquivos lidos separadamente pelo modelo.

O segundo experimento avaliou o impacto de inserir conversas irrelevantes junto aos trechos relevantes, simulando cenários com mais ruído. Grep e retrieval vetorial foram testados isoladamente enquanto aumentava-se a quantidade de distrações ao redor da consulta.

Resultados

O grep apresentou acurácia superior ao retrieval vetorial na maioria dos cenários testados, tanto no Chronos quanto nas CLIs dos provedores. Contudo, os autores destacam que o desempenho absoluto depende fortemente do harness utilizado e do estilo de chamada das ferramentas — ou seja, mesmo com os mesmos dados, a integração e o fluxo de informação podem alterar o resultado final.

Além disso, o estudo mostra que retrieval vetorial é mais sensível à presença de texto irrelevante, sofrendo maiores quedas de desempenho à medida que ruídos são inseridos nas buscas.

Limitações e próximos passos

O artigo não detalha números absolutos de acurácia por modelo na versão pública, focando em tendências gerais e dependência do fluxo de integração. Faltam benchmarks em outros domínios e testes com bases de dados mais extensas.

O trabalho está disponível no arXiv (fonte).

Mais em Benchmarks

LLMs ainda falham em probabilidade contraintuitiva, diz novo benchmark
Estudo testa 8 LLMs em problemas clássicos e contraintuitivos de probabilidade. Precisão cai de 96% para 59% em exercícios que desafiam heurísticas.
Jun 8, 2026
Code2LoRA: hypernetworks para LoRA batem fine-tuning em benchmark de código
Novo método Code2LoRA usa hypernetworks para gerar adapters LoRA específicos por repositório, superando abordagens tradicionais em benchmark com 604 projetos Python.
Jun 5, 2026
OpAI-Bench: novo benchmark avalia detecção de texto IA em revisões progressivas
OpAI-Bench propõe avaliação inédita da detecção de autoria IA em textos editados por humanos e IA, analisando granularidades de documento a token e revelando padrões não monotônicos.
Jun 5, 2026