O Hugging Face anunciou a integração da DeepInfra como mais um Inference Provider disponível no Hub. A plataforma passa a oferecer sua infraestrutura serverless para rodar modelos de IA diretamente nas páginas do Hugging Face, ampliando as opções para desenvolvedores que buscam flexibilidade e custos competitivos.Fonte.

O que muda para o usuário

Com a chegada da DeepInfra, usuários do Hugging Face podem escolher rodar LLMs e outros modelos (como text-to-image, text-to-video e embeddings, em breve) usando a infraestrutura da DeepInfra, diretamente pela interface do Hub ou via SDKs oficiais para Python e JavaScript. O usuário define a preferência dos provedores — e pode usar sua própria API key ou optar pelo roteamento via Hugging Face, pagando os valores padrão do provedor, sem markup adicional.

A integração inicial cobre tarefas de geração de texto e conversação, com acesso facilitado a modelos abertos populares como DeepSeek V4, Kimi-K2.6 e GLM-5.1. O catálogo da DeepInfra já ultrapassa 100 modelos. Segundo o anúncio, o suporte a outras modalidades (imagem, vídeo, embeddings) será liberado em atualizações futuras.

Como funciona na prática

Usuários configuram suas chaves de API dos provedores diretamente nas configurações de conta do Hugging Face. Se não houver chave própria, o roteamento é feito pelo próprio Hugging Face, com cobrança direta na conta do usuário. A integração vale tanto para uso manual nas páginas dos modelos quanto para chamadas por código via SDKs (exemplo: huggingface_hub >= 1.11.2 em Python ou @huggingface/inference em JavaScript).

A DeepInfra também foi integrada aos principais Agent Harnesses suportados pelo Hugging Face, como Pi, OpenCode e Hermes Agents, permitindo uso plug-and-play dos modelos DeepInfra nesses ambientes.

Cobrança e limites

Quem utiliza a chave do próprio provedor é cobrado diretamente pela DeepInfra. No caso de roteamento pelo Hugging Face, as tarifas seguem o valor padrão do provedor, sem acréscimos. Usuários PRO recebem créditos mensais de inferência, válidos para qualquer provedor habilitado, e há pequena cota gratuita para contas free.

O que ainda falta

No momento, a DeepInfra cobre apenas tarefas de geração textual no Hugging Face. Funcionalidades como text-to-image, text-to-video e embeddings estão prometidas, mas sem data confirmada. Não há detalhes sobre eventuais acordos de revenue sharing entre Hugging Face e provedores.

A integração interessa especialmente a desenvolvedores que buscam mais opções de infraestrutura, flexibilidade de cobrança e acesso facilitado a modelos abertos de última geração.

Mais em Ferramentas

Asincronismo em continuous batching: como Hugging Face aumentou o throughput de LLMs
Separar cargas de trabalho entre CPU e GPU reduz o tempo ocioso e eleva eficiência na inferência de LLMs. Entenda o ganho prático do batching assíncrono.
May 14, 2026
Grabette: sistema open source para coleta de dados de manipulação robótica
Grabette permite gravar demonstrações manuais com um gripper de baixo custo e gerar datasets prontos para treinar robôs, sem necessidade de laboratório ou teleoperação.
Jul 21, 2026
NeMo Automodel integra Diffusers para fine-tuning de modelos de imagem e vídeo em escala
Nova integração permite treinar e ajustar modelos de difusão diretamente do Hugging Face Hub, sem conversão de checkpoints, com suporte a paralelismo avançado e LoRA. Review da ferramenta.
Jul 19, 2026

Veja também

Análises O que o teste do pelicano diz (e não diz) sobre benchmark em IA
Jul 22, 2026
Lançamentos OpenAI e Hugging Face relatam incidente cibernético em avaliação de modelos
Jul 21, 2026