A Hcompany lançou neste 2 de junho a família Holo3.1, evolução do modelo voltado para agentes de automação de uso geral em ambientes desktop, web e mobile. O lançamento reforça o foco em flexibilidade de implantação e desempenho local, com destaque para novos checkpoints quantizados e suporte expandido a diferentes frameworks de agentes.

Suporte ampliado a ambientes e frameworks

O Holo3.1 foi projetado para funcionar de forma robusta em múltiplos contextos de uso, incluindo desktop, web e, agora, mobile. O modelo demonstra ganhos expressivos em benchmarks de automação em dispositivos móveis: no AndroidWorld, por exemplo, a versão 35B-A3B subiu de 67% para 79,3% de acurácia, enquanto os modelos menores (4B e 9B) passaram de 58% para 72%. Essa expansão busca atender a demanda de desenvolvedores e empresas que precisam de agentes versáteis, capazes de operar em diferentes sistemas e stacks de agentes.

Além disso, o Holo3.1 traz suporte nativo a protocolos de function-calling, facilitando a integração com frameworks de terceiros. Em benchmarks internos, o modelo alcançou desempenho quase equivalente entre execuções via function-calling e execução nativa, mantendo a robustez em fluxos de automação para e-commerce, software corporativo e colaboração.

Checkpoints quantizados e execução local

Pela primeira vez, a linha Holo oferece checkpoints quantizados otimizados para inferência local. Entre os formatos disponíveis estão FP8, Q4 GGUF e NVFP4 (este último utilizando NVIDIA Model Optimizer em W4A16). Esses checkpoints permitem que agentes de automação rodem em hardware do usuário final, mantendo privacidade e reduzindo custos de implantação.

Os resultados indicam que FP8 e NVFP4 mantêm praticamente o mesmo desempenho do modelo em precisão total (BF16), com diferença de apenas dois pontos em benchmarks como OSWorld. O ganho em velocidade é relevante: em hardware DGX Spark, o NVFP4 W4A16 entrega 1,41× a vazão de tokens do FP8 e 1,74× a do BF16. Para uso em máquinas pessoais (Windows, Mac, Apple Silicon), o Q4 GGUF permite execução totalmente local, com referência de desempenho publicada para diferentes plataformas.

Modelos para diferentes perfis de uso

A família Holo3.1 inclui quatro tamanhos: 0.8B (ultraleve), 4B (custo-efetivo), 9B (balanceado) e 35B-A3B (máximo desempenho). Esta variedade atende desde aplicações embarcadas e dispositivos de borda até automação avançada em servidores e workstations. O objetivo declarado do lançamento é viabilizar agentes de uso geral que possam ser implantados onde a necessidade do fluxo de trabalho exigir, sem depender obrigatoriamente de nuvem ou APIs externas.

Disponibilidade

Os modelos Holo3.1 e seus checkpoints quantizados estão disponíveis para uso via Hugging Face, com pesos abertos. A documentação detalha orientações para implantação em diferentes ambientes, incluindo otimizações para agentes locais e integração com stacks existentes.

Tags
  • #hcompany
  • #holo3.1
  • #computer-use
  • #quantization
  • #local-agents