A Hugging Face publicou em 5 de junho de 2026 a demo Thousand Token Wood, um experimento que coloca cinco criaturas da floresta — cada uma representada por um agente rodando no modelo Qwen2.5-3B — para simular uma microeconomia. O projeto, criado por Lester Leong para o Build Small Hackathon, demonstra como modelos pequenos podem ser suficientes para gerar dinâmicas complexas, desde que o design do sistema respeite suas limitações.
Economia emergente com IA enxuta
O cenário é simples: cinco agentes (criaturas) negociam cinco bens, competindo por recursos como comida e lenha. Cada agente toma decisões a cada rodada, com todas as ações processadas em lote via GPU, viabilizando execução em tempo real. A escolha por um modelo de 3 bilhões de parâmetros não é acaso: modelos maiores seriam lentos e caros demais para simulações multiagente contínuas.
No experimento, a primeira versão da economia fracassou. Sem restrições, os agentes rapidamente atingiam autossuficiência e o mercado parava. O desafio central foi criar escassez sistêmica: variedade alimentar (cada criatura só pode comer uma unidade de cada alimento por refeição), alimentos perecíveis e uma crise de lenha no inverno (só um agente produz lenha, forçando competição).
Essas mecânicas estimularam trocas constantes e geraram desigualdade de riqueza. O agente “lenhador” ficou rico, enquanto outros competiam por calor. Métricas de 15 rodadas ilustram o efeito: 100% das ações emitidas em JSON válido, trocas sustentadas (3 a 9 por rodada), colapso de preços de mel (de 10 para 3 durante uma corrida bancária simulada) e aumento do índice Gini de 0,14 para 0,38 — tudo emergindo de regras simples e limitações do modelo.
Limites e engenharia de prompts
O Qwen2.5-3B mostrou-se confiável em formatação (sempre emitindo JSON válido), mas limitado em raciocínio econômico: frequentemente, um agente tentava comprar exatamente o item que já produzia em excesso. O ajuste não foi aumentar o modelo, mas refinar prompts: cada agente passou a receber instruções explícitas sobre o que não deveria comprar e exemplos de decisões corretas. O salto de qualidade veio da engenharia de contexto, não de escala.
Além disso, para evitar travamentos, a simulação inclui uma camada de “parse-and-repair” — se a resposta do modelo é inválida, a ação é ignorada, não derrubando o sistema.
O bem-estar dos agentes também precisou revisão: modelado inicialmente como um acumulador (o que levava a espirais de morte e paralisação), passou a ser um “humor” que oscila e se recupera, tornando a simulação mais resiliente e interessante.
Narrativa e mercado: crises históricas, reimaginadas
Um dos destaques é a função “Wood Legend”, que introduz choques inspirados em eventos históricos do mercado. O usuário pode acionar, por exemplo, uma “Tulip Mania” ou uma “corrida bancária” ressignificada como folclore da floresta. Esses eventos não são apenas cosméticos: disparam mudanças reais — como uma agente liquidando estoques e derrubando preços.
Para que isso fosse visível, foi preciso permitir que preços de referência variassem conforme oferta e demanda remanescente. Assim, escassez provoca aumentos e abundância, quedas de preço, aproximando a dinâmica de mercados reais.
Para quem serve e por que importa
Thousand Token Wood é mais um laboratório do que uma aplicação de mercado. Serve para desenvolvedores, pesquisadores e entusiastas que querem testar limites de modelos pequenos em sistemas multiagente, ou experimentar design de incentivos e escassez. Não substitui simuladores econômicos tradicionais, mas mostra como criatividade e engenharia de prompts podem compensar falta de escala — lição valiosa para quem não pode rodar LLMs de dezenas de bilhões de parâmetros.
Apesar das limitações de raciocínio, o projeto evidencia: modelos pequenos, bem guiados, conseguem gerar comportamentos emergentes convincentes, desde que o sistema seja desenhado para suas restrições. O código e os traçados de decisão dos agentes estão abertos, permitindo analisar cada decisão e ajuste de prompt.
O demo está disponível gratuitamente via Hugging Face Spaces, com dataset de execuções para estudo.