Um novo estudo expõe um risco silencioso para usuários de apps de diabetes que dependem de IA para contar carboidratos: os modelos raramente dão a mesma resposta duas vezes — e, pior, a variação pode ser suficiente para desencadear emergências clínicas.
27 mil queries, nenhum consenso
Foram submetidas 13 fotos reais de refeições a quatro modelos de IA líderes: GPT-5.4 da OpenAI, Claude Sonnet 4.6 da Anthropic, Gemini 2.5 Pro e Gemini 3.1 Pro Preview do Google. Cada foto foi enviada mais de 500 vezes a cada modelo, totalizando quase 27 mil queries. O prompt era padronizado, baseado em uso real de sistemas automatizados de insulina, e sempre com o menor grau de aleatoriedade permitido.
O resultado: nenhum modelo conseguiu repetir a própria resposta. Mesmo com a mesma foto, prompt e parâmetros, as estimativas de carboidratos variaram amplamente — em alguns casos, mais de 400g para a mesma refeição, como no caso de uma paella analisada pelo Gemini 2.5 Pro (de 55g a 484g de carboidratos).
Consistência não é precisão
O Claude Sonnet 4.6 apresentou a menor variação interna, com coeficiente de variação (CV) abaixo de 5% para a maioria das imagens, enquanto os Gemini superavam 10% e até 20%. No entanto, consistência não significa acerto: no teste com um sanduíche de queijo, três modelos convergiram para 28g (quando o valor real era 40g), errando por 12g de forma estável — um erro que levaria a subdosagem crônica de insulina. Já o GPT-5.4 estimou em média 74g para o mesmo sanduíche, quase o dobro do correto e com alta variabilidade.
Falhas de identificação e riscos clínicos
A análise encontrou erros de identificação em 8 das 13 imagens. Claude confundiu uma Bakewell tart com Linzer torte em 100% das queries, enquanto Gemini 3.1 Pro foi o único a identificar corretamente quase todas as vezes. Houve também casos de “alucinação de ingredientes”, como Gemini 3.1 Pro acrescentando carnes inexistentes a um sanduíche — inflando as estimativas de carboidratos.
O impacto clínico é direto: para imagens com referência forte (rótulo do pacote ou porção pesada), apenas o Claude manteve todas as respostas em zonas seguras ou moderadas de dose de insulina (<2 unidades de erro). O GPT-5.4 apresentou erro clinicamente significativo (>2U) em 37% dos casos. No Gemini 2.5 Pro, 12% das queries resultariam em erro >5U, suficiente para risco grave de hipoglicemia.
Dois tipos de risco: crônico e agudo
O estudo destaca dois modos principais de falha:
- Viés sistemático: todos os modelos tendem a superestimar carboidratos em média, levando a doses excessivas de insulina e risco crônico de hipoglicemia.
- Variabilidade estocástica: a dispersão das respostas significa que um único erro pode levar a uma overdose aguda, mesmo em refeições pequenas.
O que ainda falta esclarecer
Os testes usaram fotos reais e prompts de produção, mas não abordam se ajustes de pré-processamento de imagem ou integração multimodal poderiam reduzir os erros. Também não há dados sobre versões futuras dos modelos ou sobre uso em contextos específicos de app.
Para quem depende de IA para contagem de carboidratos, o recado é claro: a tecnologia ainda não é confiável para decisões clínicas sem supervisão humana. Erros podem ser frequentes, invisíveis e potencialmente fatais.
Fonte: Diabettech.