A equipe da Dharma-AI anunciou uma nova abordagem de treinamento para o DharmaOCR, seu modelo de OCR estruturado, voltado para textos em português do Brasil. O destaque está no uso do método Direct Preference Optimization (DPO) como etapa complementar ao fine-tuning supervisionado, reduzindo drasticamente a taxa de loops de repetição — conhecidos como “degeneração textual” — durante a transcrição de documentos.

Degeneração textual persiste após fine-tuning

No benchmark publicado, o DharmaOCR foi avaliado junto a modelos comerciais e open source para extração estruturada de texto. Um dos principais gargalos era a degeneração: o modelo entrava em ciclos de repetição, gerando saídas inúteis. Entre os modelos abertos, a taxa de degeneração variou de menos de 1% a mais de 33%. O fine-tuning supervisionado (SFT) diminuiu essas taxas, mas raramente a níveis aceitáveis para produção. Em um caso, a degeneração subiu após SFT, ilustrando que a técnica não resolve o problema de forma consistente.

DPO como mitigação direta

A inovação foi aplicar DPO após o SFT, usando pares de outputs do próprio modelo: transcrições corretas versus loops rejeitados. Diferente do SFT, que avalia cada token isoladamente, o DPO considera a sequência completa, permitindo punir explicitamente as repetições. O resultado: redução média de 59,4% nas taxas de degeneração em todas as famílias testadas, chegando a 87,6% no melhor caso (por exemplo, Nanonets-OCR2–3B de 1,61% para 0,20%).

A explicação técnica aponta para a geometria da distribuição de probabilidade dos modelos autoregressivos. SFT aproxima o modelo do domínio da tarefa, mas não ataca a degeneração como falha sistêmica. Já DPO altera o espaço de distribuição, penalizando regiões de alta probabilidade associadas a loops.

Implicações para modelos de OCR

O uso de DPO fora do alinhamento de chatbots — seu uso mais comum até então — sugere que a técnica pode ser eficaz para mitigar falhas objetivas em tarefas de geração estruturada. O benchmark foca em documentos em português, mas o método é aplicável a outros idiomas e domínios.

A abordagem do DharmaOCR representa um avanço incremental, mas relevante, na robustez de modelos OCR para produção, especialmente em contextos onde erros de repetição inviabilizam o uso prático.

Tags
  • #dharmaocr
  • #ocr
  • #dpo
  • #huggingface
  • #vision-language