Falha na Reprodutibilidade da Contagem de Carboidratos com IA: 27K Consultas Mostram Dispersão de 429g em uma Única Foto

✍️ OpenClawRadar📅 Publicado: April 29, 2026🔗 Source
Falha na Reprodutibilidade da Contagem de Carboidratos com IA: 27K Consultas Mostram Dispersão de 429g em uma Única Foto
Ad

Um preprint recém-publicado testou quatro modelos de IA — OpenAI GPT-5.4, Anthropic Claude Sonnet 4.6, Google Gemini 2.5 Pro e Google Gemini 3.1 Pro — em uma tarefa simples: estimar carboidratos a partir de fotos de alimentos. As mesmas 13 fotos, o mesmo prompt, as mesmas configurações, repetidas mais de 500 vezes por modelo (26.904 consultas no total). Os resultados mostram que, mesmo no nível mais baixo de aleatoriedade, a reprodutibilidade é altamente inconsistente entre os modelos.

Principais Descobertas

  • Maior variação: As estimativas do Gemini 2.5 Pro para uma única foto de paella variaram de 55g a 484g — uma diferença de 429g. Com uma relação insulina-carboidrato de 1:10, isso equivale a 42,9 unidades de insulina. Potencialmente fatal.
  • Variação mediana (CV): Claude 2,4%, GPT-5.4 8,4%, Gemini 3.1 Pro 10,3%, Gemini 2.5 Pro 11,0%.
  • Oscilação mediana de insulina: Claude 0,9U, GPT-5.4 2,3U, Gemini 3.1 Pro 2,9U, Gemini 2.5 Pro 4,7U.
  • Pior oscilação de insulina: Claude 13,6U, GPT-5.4 16,6U, Gemini 3.1 Pro 16,2U, Gemini 2.5 Pro 42,9U.

O Problema do "Precisamente Errado"

Três modelos (Claude, Gemini 2.5 Pro, Gemini 3.1 Pro) convergiram independentemente para ~28g para um sanduíche de queijo com valor de referência de 40g (rótulo do pacote: 20g por fatia de pão). O Claude apresentou apenas 0,3% de CV em 510 consultas, mas cada consulta foi 12g abaixo — uma subdose consistente de ~1,2U. O GPT-5.4 pendeu para o outro lado, com média de ~74g e alta variabilidade.

Ad

Erros de Identificação de Alimentos

  • Torta Bakewell: O Claude chamou de "torta Linzer" 100% das vezes. O GPT-5.4 chamou de "torta de geleia" ou "barra de bolo". Apenas o Gemini 3.1 Pro a identificou corretamente (99,8%).
  • Crema catalana: Três dos quatro modelos chamaram de "crème brûlée" 100% das vezes. O Gemini 3.1 Pro acertou apenas 3,4% das consultas.
  • Sanduíche de queijo: O Gemini 3.1 Pro alucinou "carne de frios" em 17,4% das consultas — potencialmente inflando as estimativas de carboidratos.

Risco de Dosagem de Insulina

Em cinco imagens com valores de referência sólidos, o Claude foi o único modelo com zero consultas nas zonas "clinicamente significativa" (erro de 2-5U) ou "risco grave de hipoglicemia" (erro >5U). 100% das consultas do Claude ficaram em zonas seguras ou moderadas. Os outros modelos produziram valores extremos perigosos em cada imagem.

Conclusão: um único número de qualquer aplicativo de contagem de carboidratos por IA não dá aos usuários visibilidade sobre a distribuição subjacente das estimativas. Alta consistência (Claude) não garante precisão. Baixa consistência (Gemini) pode produzir qualquer resultado. Sistemas de produção devem considerar essa variância.

📖 Leia a fonte completa: HN AI Agents

Ad

👀 See Also

Qwen3.5-122B no Blackwell SM120: Problema de Corrupção do Cache KV em fp8 e Descobertas de Desempenho
News

Qwen3.5-122B no Blackwell SM120: Problema de Corrupção do Cache KV em fp8 e Descobertas de Desempenho

Testar o Qwen3.5-122B em hardware 8x RTX PRO 6000 Blackwell revelou que o cache KV fp8_e4m3 produz silenciosamente saída corrompida sem erros, exigindo cache KV bf16 em vez disso. A otimização MTP proporcionou uma aceleração de 2,75x em solicitação única, enquanto as restrições do DeltaNet bloquearam outras otimizações.

OpenClawRadar
Estudo da ETH Zurich: Contexto Excessivo Reduz o Desempenho de Agentes de IA para Programação
News

Estudo da ETH Zurich: Contexto Excessivo Reduz o Desempenho de Agentes de IA para Programação

Um estudo da ETH Zurich testou quatro agentes de codificação em 138 tarefas reais do GitHub e descobriu que arquivos de contexto gerados por LLM reduziram as taxas de sucesso das tarefas em 2-3% enquanto aumentaram os custos de inferência em 20%. O contexto escrito por humanos melhorou o sucesso em apenas ~4% com aumentos significativos de custos.

OpenClawRadar
Política de IA da Wikipédia: LLMs proibidos para criação de artigos, exceções para revisão e tradução
News

Política de IA da Wikipédia: LLMs proibidos para criação de artigos, exceções para revisão e tradução

A Wikipédia proíbe o uso de LLMs para gerar ou reescrever artigos, com raras exceções para revisão básica e tradução. Violações podem levar à exclusão rápida (G15) e remoção de comentários gerados por IA em páginas de discussão.

OpenClawRadar
Resultados de Benchmark de Raciocínio Visual para 15 Modelos de IA Multimodal
News

Resultados de Benchmark de Raciocínio Visual para 15 Modelos de IA Multimodal

A AIMultiple avaliou 15 principais modelos de IA multimodal em 200 questões de raciocínio visual em duas categorias: compreensão de gráficos e lógica visual. Gemini-3.1-pro-preview e Gemini-3-pro-preview lideram os resultados gerais, seguidos por GPT-5.2, Kimi-K2.5 e GPT-5.2-pro.

OpenClawRadar