IA na Contagem de Carboidratos: Dispersão de 429g em 27K Consultas

Um preprint recém-publicado testou quatro modelos de IA — OpenAI GPT-5.4, Anthropic Claude Sonnet 4.6, Google Gemini 2.5 Pro e Google Gemini 3.1 Pro — em uma tarefa simples: estimar carboidratos a partir de fotos de alimentos. As mesmas 13 fotos, o mesmo prompt, as mesmas configurações, repetidas mais de 500 vezes por modelo (26.904 consultas no total). Os resultados mostram que, mesmo no nível mais baixo de aleatoriedade, a reprodutibilidade é altamente inconsistente entre os modelos.

Principais Descobertas

Maior variação: As estimativas do Gemini 2.5 Pro para uma única foto de paella variaram de 55g a 484g — uma diferença de 429g. Com uma relação insulina-carboidrato de 1:10, isso equivale a 42,9 unidades de insulina. Potencialmente fatal.
Variação mediana (CV): Claude 2,4%, GPT-5.4 8,4%, Gemini 3.1 Pro 10,3%, Gemini 2.5 Pro 11,0%.
Oscilação mediana de insulina: Claude 0,9U, GPT-5.4 2,3U, Gemini 3.1 Pro 2,9U, Gemini 2.5 Pro 4,7U.
Pior oscilação de insulina: Claude 13,6U, GPT-5.4 16,6U, Gemini 3.1 Pro 16,2U, Gemini 2.5 Pro 42,9U.

O Problema do "Precisamente Errado"

Três modelos (Claude, Gemini 2.5 Pro, Gemini 3.1 Pro) convergiram independentemente para ~28g para um sanduíche de queijo com valor de referência de 40g (rótulo do pacote: 20g por fatia de pão). O Claude apresentou apenas 0,3% de CV em 510 consultas, mas cada consulta foi 12g abaixo — uma subdose consistente de ~1,2U. O GPT-5.4 pendeu para o outro lado, com média de ~74g e alta variabilidade.

Erros de Identificação de Alimentos

Torta Bakewell: O Claude chamou de "torta Linzer" 100% das vezes. O GPT-5.4 chamou de "torta de geleia" ou "barra de bolo". Apenas o Gemini 3.1 Pro a identificou corretamente (99,8%).
Crema catalana: Três dos quatro modelos chamaram de "crème brûlée" 100% das vezes. O Gemini 3.1 Pro acertou apenas 3,4% das consultas.
Sanduíche de queijo: O Gemini 3.1 Pro alucinou "carne de frios" em 17,4% das consultas — potencialmente inflando as estimativas de carboidratos.

Risco de Dosagem de Insulina

Em cinco imagens com valores de referência sólidos, o Claude foi o único modelo com zero consultas nas zonas "clinicamente significativa" (erro de 2-5U) ou "risco grave de hipoglicemia" (erro >5U). 100% das consultas do Claude ficaram em zonas seguras ou moderadas. Os outros modelos produziram valores extremos perigosos em cada imagem.

Conclusão: um único número de qualquer aplicativo de contagem de carboidratos por IA não dá aos usuários visibilidade sobre a distribuição subjacente das estimativas. Alta consistência (Claude) não garante precisão. Baixa consistência (Gemini) pode produzir qualquer resultado. Sistemas de produção devem considerar essa variância.

📖 Leia a fonte completa: HN AI Agents