DharmaOCR: modelo especializado supera APIs comerciais em OCR para português

Benchmark

DharmaOCR-Benchmark

Métrica: Pontuação composta (edit-distance + n-gram overlap)

Execução

maio de 2026

#	Modelo	Score	Δ
01	DharmaOCR 3B (especializado) Modelo especializado via fine-tuning; 3 bilhões de parâmetros	0.911	—
02	Claude Opus 4.6	0.833	—
03	Gemini 3.1 Pro	0.820	—
04	GPT-5.4	0.750	—
05	Google Vision	0.686	—
06	Google Document AI	0.640	—
07	GPT-4o	0.635	—
08	Amazon Textract	0.618	—
09	Mistral OCR 3	0.574	—

Um modelo de apenas 3 bilhões de parâmetros, treinado especificamente para OCR estruturado em português brasileiro, superou todas as principais APIs comerciais no benchmark DharmaOCR-Benchmark divulgado em maio de 2026 pela DharmaAI.

Resultados: especialização vence escala

O DharmaOCR 3B, resultado de uma pipeline de fine-tuning voltada para documentos brasileiros (incluindo impressos, manuscritos e registros legais), obteve pontuação composta de 0,911 — oito pontos percentuais à frente do segundo colocado, Claude Opus 4.6 (0,833). O modelo ficou também acima de Gemini 3.1 Pro (0,820), GPT-5.4 (0,750) e Google Vision (0,686). APIs tradicionais como Amazon Textract (0,618) e Mistral OCR 3 (0,574) ficaram distantes do topo.

A métrica usada combina edit-distance e n-gram overlap, refletindo fidelidade de extração textual em cenários de produção. O benchmark avaliou documentos reais, com ênfase em formulários administrativos e registros jurídicos — um cenário crítico para automação empresarial no Brasil.

Custo operacional: diferença de duas ordens de magnitude

Além da vantagem em qualidade, o DharmaOCR 3B apresentou custo de inferência 52 vezes menor que o Claude Opus 4.6, considerando infraestrutura e preços de API divulgados. A relação custo-benefício coloca o modelo especializado não só como melhor em precisão, mas também como solução mais viável em larga escala para operações empresariais.

O que explica a diferença

O resultado reforça uma tendência observada em pesquisas recentes: a especialização via fine-tuning, quando bem alinhada ao domínio de uso, pode superar modelos generalistas com muito mais parâmetros. Não se trata apenas de reduzir custo sacrificando qualidade — o modelo da DharmaAI entregou melhor resultado absoluto, invertendo a lógica que dominou decisões de procurement nos últimos anos, segundo a qual “maior sempre vence”.

Para quem importa

Empresas que dependem de OCR em português, especialmente em setores regulados ou com alto volume documental, encontram no DharmaOCR 3B um caso concreto de que investir em especialização pode trazer vantagens reais — tanto em precisão quanto em orçamento.

Mais em Benchmarks

GLM-5 e MiniMax M2.7 desafiam modelos fechados em tarefas de agentes
Avaliação do Deep Agents mostra GLM-5 e MiniMax M2.7 próximos de Claude Opus 4.6 e Gemini 3.1 Pro em file ops, tool use e instruções, com custos menores.
May 8, 2026
ClinEnv: benchmark interativo avalia LLMs em prontuários médicos reais
Novo ambiente ClinEnv mede como LLMs atuam como médicos em cenários reais de internação, avaliando tanto decisões quanto o processo de coleta de informações.
Jun 2, 2026
LLMs aprendem semântica de construções raras: análise em paired-focus
Estudo mostra que LLMs open-source de porte médio conseguem captar semântica de construções raras como 'let alone', sugerindo avanço além da mera sintaxe.
Jun 1, 2026