Falha na Reprodutibilidade da Contagem de Carboidratos com IA: 27K Consultas Mostram Dispersão de 429g em uma Única Foto

Um preprint recém-publicado testou quatro modelos de IA — OpenAI GPT-5.4, Anthropic Claude Sonnet 4.6, Google Gemini 2.5 Pro e Google Gemini 3.1 Pro — em uma tarefa simples: estimar carboidratos a partir de fotos de alimentos. As mesmas 13 fotos, o mesmo prompt, as mesmas configurações, repetidas mais de 500 vezes por modelo (26.904 consultas no total). Os resultados mostram que, mesmo no nível mais baixo de aleatoriedade, a reprodutibilidade é altamente inconsistente entre os modelos.
Principais Descobertas
- Maior variação: As estimativas do Gemini 2.5 Pro para uma única foto de paella variaram de 55g a 484g — uma diferença de 429g. Com uma relação insulina-carboidrato de 1:10, isso equivale a 42,9 unidades de insulina. Potencialmente fatal.
- Variação mediana (CV): Claude 2,4%, GPT-5.4 8,4%, Gemini 3.1 Pro 10,3%, Gemini 2.5 Pro 11,0%.
- Oscilação mediana de insulina: Claude 0,9U, GPT-5.4 2,3U, Gemini 3.1 Pro 2,9U, Gemini 2.5 Pro 4,7U.
- Pior oscilação de insulina: Claude 13,6U, GPT-5.4 16,6U, Gemini 3.1 Pro 16,2U, Gemini 2.5 Pro 42,9U.
O Problema do "Precisamente Errado"
Três modelos (Claude, Gemini 2.5 Pro, Gemini 3.1 Pro) convergiram independentemente para ~28g para um sanduíche de queijo com valor de referência de 40g (rótulo do pacote: 20g por fatia de pão). O Claude apresentou apenas 0,3% de CV em 510 consultas, mas cada consulta foi 12g abaixo — uma subdose consistente de ~1,2U. O GPT-5.4 pendeu para o outro lado, com média de ~74g e alta variabilidade.
Erros de Identificação de Alimentos
- Torta Bakewell: O Claude chamou de "torta Linzer" 100% das vezes. O GPT-5.4 chamou de "torta de geleia" ou "barra de bolo". Apenas o Gemini 3.1 Pro a identificou corretamente (99,8%).
- Crema catalana: Três dos quatro modelos chamaram de "crème brûlée" 100% das vezes. O Gemini 3.1 Pro acertou apenas 3,4% das consultas.
- Sanduíche de queijo: O Gemini 3.1 Pro alucinou "carne de frios" em 17,4% das consultas — potencialmente inflando as estimativas de carboidratos.
Risco de Dosagem de Insulina
Em cinco imagens com valores de referência sólidos, o Claude foi o único modelo com zero consultas nas zonas "clinicamente significativa" (erro de 2-5U) ou "risco grave de hipoglicemia" (erro >5U). 100% das consultas do Claude ficaram em zonas seguras ou moderadas. Os outros modelos produziram valores extremos perigosos em cada imagem.
Conclusão: um único número de qualquer aplicativo de contagem de carboidratos por IA não dá aos usuários visibilidade sobre a distribuição subjacente das estimativas. Alta consistência (Claude) não garante precisão. Baixa consistência (Gemini) pode produzir qualquer resultado. Sistemas de produção devem considerar essa variância.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

Qwen3.5-122B no Blackwell SM120: Problema de Corrupção do Cache KV em fp8 e Descobertas de Desempenho
Testar o Qwen3.5-122B em hardware 8x RTX PRO 6000 Blackwell revelou que o cache KV fp8_e4m3 produz silenciosamente saída corrompida sem erros, exigindo cache KV bf16 em vez disso. A otimização MTP proporcionou uma aceleração de 2,75x em solicitação única, enquanto as restrições do DeltaNet bloquearam outras otimizações.

Estudo da ETH Zurich: Contexto Excessivo Reduz o Desempenho de Agentes de IA para Programação
Um estudo da ETH Zurich testou quatro agentes de codificação em 138 tarefas reais do GitHub e descobriu que arquivos de contexto gerados por LLM reduziram as taxas de sucesso das tarefas em 2-3% enquanto aumentaram os custos de inferência em 20%. O contexto escrito por humanos melhorou o sucesso em apenas ~4% com aumentos significativos de custos.

Política de IA da Wikipédia: LLMs proibidos para criação de artigos, exceções para revisão e tradução
A Wikipédia proíbe o uso de LLMs para gerar ou reescrever artigos, com raras exceções para revisão básica e tradução. Violações podem levar à exclusão rápida (G15) e remoção de comentários gerados por IA em páginas de discussão.

Resultados de Benchmark de Raciocínio Visual para 15 Modelos de IA Multimodal
A AIMultiple avaliou 15 principais modelos de IA multimodal em 200 questões de raciocínio visual em duas categorias: compreensão de gráficos e lógica visual. Gemini-3.1-pro-preview e Gemini-3-pro-preview lideram os resultados gerais, seguidos por GPT-5.2, Kimi-K2.5 e GPT-5.2-pro.