IA para conteo de carbohidratos falla: 429g de dispersión en una foto

Un preimpreso recién publicado probó cuatro modelos de IA — OpenAI GPT-5.4, Anthropic Claude Sonnet 4.6, Google Gemini 2.5 Pro y Google Gemini 3.1 Pro — en una tarea simple: estimar carbohidratos a partir de fotos de alimentos. Las mismas 13 fotos, el mismo prompt, las mismas configuraciones, repetidas más de 500 veces por modelo (26,904 consultas en total). Los resultados muestran que incluso con la configuración de aleatoriedad más baja, la reproducibilidad es enormemente inconsistente entre modelos.

Hallazgos Clave

Diferencia máxima: Las estimaciones de Gemini 2.5 Pro para una sola foto de paella oscilaron entre 55g y 484g, una diferencia de 429g. Con una proporción insulina:carbohidratos de 1:10, eso son 42.9 unidades de insulina. Un error potencialmente mortal.
Variación media (CV): Claude 2.4%, GPT-5.4 8.4%, Gemini 3.1 Pro 10.3%, Gemini 2.5 Pro 11.0%.
Cambio de insulina medio: Claude 0.9U, GPT-5.4 2.3U, Gemini 3.1 Pro 2.9U, Gemini 2.5 Pro 4.7U.
Cambio de insulina máximo: Claude 13.6U, GPT-5.4 16.6U, Gemini 3.1 Pro 16.2U, Gemini 2.5 Pro 42.9U.

El Problema de "Precisamente Incorrecto"

Tres modelos (Claude, Gemini 2.5 Pro, Gemini 3.1 Pro) convergieron independientemente en ~28g para un sándwich de queso con un valor de referencia de 40g (etiqueta del paquete: 20g por rebanada de pan). Claude mostró solo un 0.3% de CV en 510 consultas, pero cada consulta estaba 12g por debajo, una dosis insuficiente constante de ~1.2U. GPT-5.4 se inclinó en la otra dirección, promediando ~74g con alta variabilidad.

Errores de Identificación de Alimentos

Bakewell tart: Claude la llamó "Linzer torte" el 100% de las veces. GPT-5.4 la llamó "tarta de mermelada" o "barra de pastel". Solo Gemini 3.1 Pro la identificó correctamente (99.8%).
Crema catalana: Tres de cuatro modelos la llamaron "crème brûlée" el 100% de las veces. Gemini 3.1 Pro acertó solo en el 3.4% de las consultas.
Sándwich de queso: Gemini 3.1 Pro alucinó "carne de fiambre" en el 17.4% de las consultas, lo que podría inflar las estimaciones de carbohidratos.

Riesgo de Dosificación de Insulina

En cinco imágenes con valores de referencia sólidos, Claude fue el único modelo con cero consultas en las zonas "clínicamente significativas" (error de 2-5U) o "riesgo de hipoglucemia severa" (error >5U). El 100% de las consultas de Claude estuvieron en zonas seguras o moderadas. Los otros modelos produjeron valores atípicos peligrosos con cada imagen.

Conclusión: un solo número de cualquier aplicación de conteo de carbohidratos con IA no brinda a los usuarios visibilidad sobre la distribución subyacente de las estimaciones. La alta consistencia (Claude) no garantiza precisión. La baja consistencia (Gemini) puede producir cualquier resultado. Los sistemas en producción deben considerar esta varianza.

📖 Lee la fuente original: HN AI Agents

El conteo de carbohidratos de IA falla en reproducibilidad: 27K consultas muestran una dispersión de 429g en una sola foto

Hallazgos Clave

El Problema de "Precisamente Incorrecto"

Errores de Identificación de Alimentos

Riesgo de Dosificación de Insulina

👀 Ver también

Meta capturará los movimientos del mouse y las pulsaciones de teclas de sus empleados para entrenamiento de IA.

Estudio de Stanford: Profesores de Derecho Prefieren Respuestas de IA sobre las de sus Colegas el 75% del Tiempo

GitHub desactiva la capacidad de Copilot para insertar anuncios en las solicitudes de extracción tras el rechazo de los desarrolladores.

Anthropic presenta una demanda para evitar que el Pentágono la incluya en la lista negra por restricciones de IA.