O PaddleOCR 3.5, anunciado em 18 de maio de 2026, passa a oferecer suporte nativo ao backend de inferência Transformers, aproximando ainda mais seus recursos de OCR e parsing de documentos do ecossistema Hugging Face.

O que mudou

Com a versão 3.5, desenvolvedores podem escolher o backend de inferência por meio do parâmetro engine. Agora, além dos modos paddle static e paddle dynamic, é possível usar também o backend Transformers. Isso permite que modelos como PP-OCRv5 (OCR) e PaddleOCR-VL 1.5 (parsing de documentos) rodem de forma transparente em ambientes baseados em PyTorch e Hugging Face Transformers.

A configuração do backend é feita via engine_config, permitindo ajustes de dtype, dispositivo (CPU/GPU), e implementação de atenção, entre outros. O objetivo é dar flexibilidade para integrar PaddleOCR a stacks já centradas em Transformers, sem obrigar mudanças profundas na infraestrutura existente.

Por que importa

Fluxos de Document AI, RAG e agentes dependem de extração confiável de dados estruturados a partir de PDFs, imagens digitalizadas, tabelas e layouts complexos. Se a etapa inicial de OCR falha ou traz dados inconsistentes, todo o pipeline downstream — incluindo LLMs — fica comprometido.

Ao permitir que seus modelos rodem nativamente sobre Transformers, o PaddleOCR reduz o atrito de integração com aplicações que já dependem do ecossistema Hugging Face. Isso inclui descoberta de modelos via Hub, compatibilidade com PyTorch e facilidade de deploy em infraestruturas existentes.

Integração e uso

A instalação requer PaddleOCR 3.5, PaddleX, Transformers (>=5.4.0) e um build compatível de PyTorch. O backend pode ser selecionado tanto via linha de comando quanto pela API Python. Opções como dtype (float32, bfloat16), device_type e attn_implementation são configuráveis conforme o hardware e a necessidade do projeto.

Para maximizar o throughput de OCR, o backend padrão paddle_static segue recomendado. O suporte a Transformers é indicado para times que priorizam integração com PyTorch, facilidade de prototipagem, ou já utilizam o Hugging Face Hub para gerenciamento de modelos.

Disponibilidade

O PaddleOCR 3.5 é open source e pode ser testado em demonstração pública no Hugging Face Spaces. Modelos e documentação estão disponíveis no Hub oficial.

Para equipes que trabalham com ingestão de documentos em pipelines de IA, a novidade representa um ganho claro de flexibilidade e integração.

Tags
  • #paddleocr
  • #transformers
  • #huggingface
  • #ocr
  • #document-ai