Seção

Benchmarks

Medições, comparações e dados sobre capacidade dos modelos.

17 edições arquivadas

LLMs ainda falham em probabilidade contraintuitiva, diz novo benchmark

Estudo testa 8 LLMs em problemas clássicos e contraintuitivos de probabilidade. Precisão cai de 96% para 59% em exercícios que desafiam heurísticas.

Jun 8, 2026 · Redação IA · gpt-4o

Code2LoRA: hypernetworks para LoRA batem fine-tuning em benchmark de código

Novo método Code2LoRA usa hypernetworks para gerar adapters LoRA específicos por repositório, superando abordagens tradicionais em benchmark com 604 projetos Python.

Jun 5, 2026 · Redação IA · gpt-4o

OpAI-Bench: novo benchmark avalia detecção de texto IA em revisões progressivas

OpAI-Bench propõe avaliação inédita da detecção de autoria IA em textos editados por humanos e IA, analisando granularidades de documento a token e revelando padrões não monotônicos.

Jun 5, 2026 · Redação IA · gpt-4o

ClinEnv: benchmark interativo avalia LLMs em prontuários médicos reais

Novo ambiente ClinEnv mede como LLMs atuam como médicos em cenários reais de internação, avaliando tanto decisões quanto o processo de coleta de informações.

Jun 2, 2026 · Redação IA · gpt-4o

LLMs aprendem semântica de construções raras: análise em paired-focus

Estudo mostra que LLMs open-source de porte médio conseguem captar semântica de construções raras como 'let alone', sugerindo avanço além da mera sintaxe.

Jun 1, 2026 · Redação IA · gpt-4o

PEFT-Arena: benchmark avalia estabilidade e plasticidade em finetuning eficiente

Novo benchmark PEFT-Arena mede trade-off entre adaptação e retenção em técnicas de finetuning eficiente. Análise mostra vantagens do orthogonal finetuning.

May 28, 2026 · Redação IA · gpt-4o

ITBench-AA: modelos frontier não passam de 50% em tarefas SRE

Primeira rodada do ITBench-AA avalia LLMs em diagnósticos complexos de Kubernetes. Nenhum modelo supera 47%. Claude Opus 4.7 lidera, seguido por GPT-5.5 e Qwen3.7.

May 27, 2026 · Redação IA · gpt-4o

Chatbots comerciais superam 90% de acurácia em notícias, mas falham em diversidade regional

Estudo testa seis chatbots comerciais em 2.100 perguntas factuais de notícias BBC. Líderes atingem 90% de acerto, mas desempenho cai para idiomas não-ingleses e questões com premissas falsas.

May 23, 2026 · Redação IA · gpt-4o

DharmaOCR: modelo especializado supera APIs comerciais em OCR para português

Benchmark de maio mostra modelo de 3B parâmetros da DharmaAI vencendo Claude, GPT-5 e Google Vision em OCR estruturado de documentos brasileiros, com custo operacional 52 vezes menor.

May 22, 2026 · Redação IA · gpt-4o

FutureSim: benchmark avalia adaptação de agentes a eventos do mundo real

Novo benchmark FutureSim testa agentes de IA em previsões de notícias reais, simulando eventos entre janeiro e março de 2026 e revelando limitações nas capacidades de adaptação.

May 15, 2026 · Redação IA · gpt-4o

Grep supera retrieval vetorial em buscas agenticas, aponta estudo

Benchmark compara grep e retrieval vetorial em workflows agenticos com LLMs. Grep tem desempenho superior, mas resultado depende do harness e estilo de chamada de ferramenta.

May 15, 2026 · Redação IA · gpt-4o

EVA-Bench: novo benchmark open source para agentes de voz

EVA-Bench propõe avaliação de ponta a ponta para agentes de voz, com métricas inéditas de precisão e experiência. Framework cobre 213 cenários e três arquiteturas.

May 14, 2026 · Redação IA · gpt-4o

Gen Z freia adoção de IA: medo, ceticismo e busca por conexão humana

Novo levantamento Gallup mostra que jovens americanos estagnaram no uso de IA, ampliaram desconfiança e preferem serviços humanos, mesmo reconhecendo ganhos de produtividade.

May 10, 2026 · Redação IA · gpt-4o

GLM-5 e MiniMax M2.7 desafiam modelos fechados em tarefas de agentes

Avaliação do Deep Agents mostra GLM-5 e MiniMax M2.7 próximos de Claude Opus 4.6 e Gemini 3.1 Pro em file ops, tool use e instruções, com custos menores.

May 8, 2026 · Redação IA · gpt-4o

SimpleAudit propõe validação de segurança para LLMs sem benchmarks rotulados

Novo método formaliza auditorias comparativas de segurança para LLMs mesmo sem benchmarks rotulados. Estudo de caso com modelos Borealis e Gemma 3.

May 8, 2026 · Redação IA · gpt-4o

Modelos de linguagem revelam distinção gramatical implícita além da probabilidade de string

Estudo mostra que LLMs trazem sinais internos de gramaticalidade, superando a simples probabilidade de string em benchmarks de julgamento gramatical.

May 7, 2026 · Redação IA · gpt-4o

LLMs falham em seguir procedimentos longos: novo benchmark revela limitações

Estudo com 14 LLMs mostra queda brusca de acurácia ao executar algoritmos aritméticos extensos. Desempenho cai de 61% para 20% em tarefas com até 95 etapas.

May 4, 2026 · Redação IA · gpt-4o