Por que IA ainda não é confiável para contar carboidratos em diabetes

Um novo estudo expõe um risco silencioso para usuários de apps de diabetes que dependem de IA para contar carboidratos: os modelos raramente dão a mesma resposta duas vezes — e, pior, a variação pode ser suficiente para desencadear emergências clínicas.

27 mil queries, nenhum consenso

Foram submetidas 13 fotos reais de refeições a quatro modelos de IA líderes: GPT-5.4 da OpenAI, Claude Sonnet 4.6 da Anthropic, Gemini 2.5 Pro e Gemini 3.1 Pro Preview do Google. Cada foto foi enviada mais de 500 vezes a cada modelo, totalizando quase 27 mil queries. O prompt era padronizado, baseado em uso real de sistemas automatizados de insulina, e sempre com o menor grau de aleatoriedade permitido.

O resultado: nenhum modelo conseguiu repetir a própria resposta. Mesmo com a mesma foto, prompt e parâmetros, as estimativas de carboidratos variaram amplamente — em alguns casos, mais de 400g para a mesma refeição, como no caso de uma paella analisada pelo Gemini 2.5 Pro (de 55g a 484g de carboidratos).

Consistência não é precisão

O Claude Sonnet 4.6 apresentou a menor variação interna, com coeficiente de variação (CV) abaixo de 5% para a maioria das imagens, enquanto os Gemini superavam 10% e até 20%. No entanto, consistência não significa acerto: no teste com um sanduíche de queijo, três modelos convergiram para 28g (quando o valor real era 40g), errando por 12g de forma estável — um erro que levaria a subdosagem crônica de insulina. Já o GPT-5.4 estimou em média 74g para o mesmo sanduíche, quase o dobro do correto e com alta variabilidade.

Falhas de identificação e riscos clínicos

A análise encontrou erros de identificação em 8 das 13 imagens. Claude confundiu uma Bakewell tart com Linzer torte em 100% das queries, enquanto Gemini 3.1 Pro foi o único a identificar corretamente quase todas as vezes. Houve também casos de “alucinação de ingredientes”, como Gemini 3.1 Pro acrescentando carnes inexistentes a um sanduíche — inflando as estimativas de carboidratos.

O impacto clínico é direto: para imagens com referência forte (rótulo do pacote ou porção pesada), apenas o Claude manteve todas as respostas em zonas seguras ou moderadas de dose de insulina (<2 unidades de erro). O GPT-5.4 apresentou erro clinicamente significativo (>2U) em 37% dos casos. No Gemini 2.5 Pro, 12% das queries resultariam em erro >5U, suficiente para risco grave de hipoglicemia.

Dois tipos de risco: crônico e agudo

O estudo destaca dois modos principais de falha:

Viés sistemático: todos os modelos tendem a superestimar carboidratos em média, levando a doses excessivas de insulina e risco crônico de hipoglicemia.
Variabilidade estocástica: a dispersão das respostas significa que um único erro pode levar a uma overdose aguda, mesmo em refeições pequenas.

O que ainda falta esclarecer

Os testes usaram fotos reais e prompts de produção, mas não abordam se ajustes de pré-processamento de imagem ou integração multimodal poderiam reduzir os erros. Também não há dados sobre versões futuras dos modelos ou sobre uso em contextos específicos de app.

Para quem depende de IA para contagem de carboidratos, o recado é claro: a tecnologia ainda não é confiável para decisões clínicas sem supervisão humana. Erros podem ser frequentes, invisíveis e potencialmente fatais.

Fonte: Diabettech.

Mais em Análises

Auditoria expõe falhas graves em sistemas de IA Scribe usados por médicos em Ontário
Relatório revela que maioria dos sistemas de IA aprovados para registro de consultas médicas em Ontário erra informações básicas, mistura dados e ignora detalhes críticos.
May 14, 2026
A zombificação das universidades pela IA: sintomas de uma epidemia silenciosa
Nos EUA, o uso indiscriminado de LLMs ameaça esvaziar o sentido da experiência universitária. Um relato de dentro do campus.
May 14, 2026
Task Paralysis, IA e o ciclo da dopamina: um relato pessoal
Reflexão sobre como IAs como Claude ajudam a superar bloqueios de execução, mas também podem alimentar ciclos viciantes de produtividade e consumo.
May 10, 2026