DharmaOCR adota Direct Preference Optimization para mitigar loops em OCR

A equipe da Dharma-AI anunciou uma nova abordagem de treinamento para o DharmaOCR, seu modelo de OCR estruturado, voltado para textos em português do Brasil. O destaque está no uso do método Direct Preference Optimization (DPO) como etapa complementar ao fine-tuning supervisionado, reduzindo drasticamente a taxa de loops de repetição — conhecidos como “degeneração textual” — durante a transcrição de documentos.

Degeneração textual persiste após fine-tuning

No benchmark publicado, o DharmaOCR foi avaliado junto a modelos comerciais e open source para extração estruturada de texto. Um dos principais gargalos era a degeneração: o modelo entrava em ciclos de repetição, gerando saídas inúteis. Entre os modelos abertos, a taxa de degeneração variou de menos de 1% a mais de 33%. O fine-tuning supervisionado (SFT) diminuiu essas taxas, mas raramente a níveis aceitáveis para produção. Em um caso, a degeneração subiu após SFT, ilustrando que a técnica não resolve o problema de forma consistente.

DPO como mitigação direta

A inovação foi aplicar DPO após o SFT, usando pares de outputs do próprio modelo: transcrições corretas versus loops rejeitados. Diferente do SFT, que avalia cada token isoladamente, o DPO considera a sequência completa, permitindo punir explicitamente as repetições. O resultado: redução média de 59,4% nas taxas de degeneração em todas as famílias testadas, chegando a 87,6% no melhor caso (por exemplo, Nanonets-OCR2–3B de 1,61% para 0,20%).

A explicação técnica aponta para a geometria da distribuição de probabilidade dos modelos autoregressivos. SFT aproxima o modelo do domínio da tarefa, mas não ataca a degeneração como falha sistêmica. Já DPO altera o espaço de distribuição, penalizando regiões de alta probabilidade associadas a loops.

Implicações para modelos de OCR

O uso de DPO fora do alinhamento de chatbots — seu uso mais comum até então — sugere que a técnica pode ser eficaz para mitigar falhas objetivas em tarefas de geração estruturada. O benchmark foca em documentos em português, mas o método é aplicável a outros idiomas e domínios.

A abordagem do DharmaOCR representa um avanço incremental, mas relevante, na robustez de modelos OCR para produção, especialmente em contextos onde erros de repetição inviabilizam o uso prático.

Mais em Lançamentos

NVIDIA lança Cosmos 3, omni-modelo aberto para IA física
Cosmos 3 unifica geração de mundos, raciocínio físico e ações em um único modelo. Versões Nano e Super já disponíveis no Hugging Face.
Jun 1, 2026
Glossário: o que é scaffold, harness e outros termos em agentes de IA
Glossário do Hugging Face esclarece termos como scaffold, harness, agent e policy, comuns em frameworks de agentes de IA, e explica por que a confusão entre eles persiste.
May 25, 2026
OpenAI atualiza GPT-Rosalind para pesquisa em ciências da vida
OpenAI lança atualização do GPT-Rosalind com foco em fluxos de trabalho científicos reais e avanços em química medicinal, genômica e workflows experimentais.
Jun 3, 2026