O Hugging Face anunciou a integração da DeepInfra como mais um Inference Provider disponível no Hub. A plataforma passa a oferecer sua infraestrutura serverless para rodar modelos de IA diretamente nas páginas do Hugging Face, ampliando as opções para desenvolvedores que buscam flexibilidade e custos competitivos.Fonte.

O que muda para o usuário

Com a chegada da DeepInfra, usuários do Hugging Face podem escolher rodar LLMs e outros modelos (como text-to-image, text-to-video e embeddings, em breve) usando a infraestrutura da DeepInfra, diretamente pela interface do Hub ou via SDKs oficiais para Python e JavaScript. O usuário define a preferência dos provedores — e pode usar sua própria API key ou optar pelo roteamento via Hugging Face, pagando os valores padrão do provedor, sem markup adicional.

A integração inicial cobre tarefas de geração de texto e conversação, com acesso facilitado a modelos abertos populares como DeepSeek V4, Kimi-K2.6 e GLM-5.1. O catálogo da DeepInfra já ultrapassa 100 modelos. Segundo o anúncio, o suporte a outras modalidades (imagem, vídeo, embeddings) será liberado em atualizações futuras.

Como funciona na prática

Usuários configuram suas chaves de API dos provedores diretamente nas configurações de conta do Hugging Face. Se não houver chave própria, o roteamento é feito pelo próprio Hugging Face, com cobrança direta na conta do usuário. A integração vale tanto para uso manual nas páginas dos modelos quanto para chamadas por código via SDKs (exemplo: huggingface_hub >= 1.11.2 em Python ou @huggingface/inference em JavaScript).

A DeepInfra também foi integrada aos principais Agent Harnesses suportados pelo Hugging Face, como Pi, OpenCode e Hermes Agents, permitindo uso plug-and-play dos modelos DeepInfra nesses ambientes.

Cobrança e limites

Quem utiliza a chave do próprio provedor é cobrado diretamente pela DeepInfra. No caso de roteamento pelo Hugging Face, as tarifas seguem o valor padrão do provedor, sem acréscimos. Usuários PRO recebem créditos mensais de inferência, válidos para qualquer provedor habilitado, e há pequena cota gratuita para contas free.

O que ainda falta

No momento, a DeepInfra cobre apenas tarefas de geração textual no Hugging Face. Funcionalidades como text-to-image, text-to-video e embeddings estão prometidas, mas sem data confirmada. Não há detalhes sobre eventuais acordos de revenue sharing entre Hugging Face e provedores.

A integração interessa especialmente a desenvolvedores que buscam mais opções de infraestrutura, flexibilidade de cobrança e acesso facilitado a modelos abertos de última geração.

Tags
  • #huggingface
  • #deepinfra
  • #inference
  • #llm