PaddleOCR 3.5 integra backend Transformers para OCR e parsing de documentos

O PaddleOCR 3.5, anunciado em 18 de maio de 2026, passa a oferecer suporte nativo ao backend de inferência Transformers, aproximando ainda mais seus recursos de OCR e parsing de documentos do ecossistema Hugging Face.

O que mudou

Com a versão 3.5, desenvolvedores podem escolher o backend de inferência por meio do parâmetro engine. Agora, além dos modos paddle static e paddle dynamic, é possível usar também o backend Transformers. Isso permite que modelos como PP-OCRv5 (OCR) e PaddleOCR-VL 1.5 (parsing de documentos) rodem de forma transparente em ambientes baseados em PyTorch e Hugging Face Transformers.

A configuração do backend é feita via engine_config, permitindo ajustes de dtype, dispositivo (CPU/GPU), e implementação de atenção, entre outros. O objetivo é dar flexibilidade para integrar PaddleOCR a stacks já centradas em Transformers, sem obrigar mudanças profundas na infraestrutura existente.

Por que importa

Fluxos de Document AI, RAG e agentes dependem de extração confiável de dados estruturados a partir de PDFs, imagens digitalizadas, tabelas e layouts complexos. Se a etapa inicial de OCR falha ou traz dados inconsistentes, todo o pipeline downstream — incluindo LLMs — fica comprometido.

Ao permitir que seus modelos rodem nativamente sobre Transformers, o PaddleOCR reduz o atrito de integração com aplicações que já dependem do ecossistema Hugging Face. Isso inclui descoberta de modelos via Hub, compatibilidade com PyTorch e facilidade de deploy em infraestruturas existentes.

Integração e uso

A instalação requer PaddleOCR 3.5, PaddleX, Transformers (>=5.4.0) e um build compatível de PyTorch. O backend pode ser selecionado tanto via linha de comando quanto pela API Python. Opções como dtype (float32, bfloat16), device_type e attn_implementation são configuráveis conforme o hardware e a necessidade do projeto.

Para maximizar o throughput de OCR, o backend padrão paddle_static segue recomendado. O suporte a Transformers é indicado para times que priorizam integração com PyTorch, facilidade de prototipagem, ou já utilizam o Hugging Face Hub para gerenciamento de modelos.

Disponibilidade

O PaddleOCR 3.5 é open source e pode ser testado em demonstração pública no Hugging Face Spaces. Modelos e documentação estão disponíveis no Hub oficial.

Para equipes que trabalham com ingestão de documentos em pipelines de IA, a novidade representa um ganho claro de flexibilidade e integração.

Mais em Lançamentos

DharmaOCR adota Direct Preference Optimization para mitigar loops em OCR
DharmaOCR usa Direct Preference Optimization como segunda etapa de treinamento para reduzir loops de repetição em OCR de documentos em português, com queda média de 59% na degeneração textual.
Jun 3, 2026
OpenEnv formaliza governança comunitária e amplia suporte para RL agentic
Biblioteca de interoperabilidade para ambientes de RL passa a ser coordenada por comitê multientidades, incluindo Meta, Nvidia e Hugging Face. Mudança mira padronização aberta.
Jun 8, 2026
SubFit: compressão de LLM por submódulos melhora trade-off entre acurácia e tamanho
Novo método SubFit permite compressão pós-treinamento de LLMs selecionando submódulos de forma não contígua, mantendo até 84,6% da acurácia e reduzindo uso de recursos.
Jun 2, 2026