El conteo de carbohidratos de IA falla en reproducibilidad: 27K consultas muestran una dispersión de 429g en una sola foto

Un preimpreso recién publicado probó cuatro modelos de IA — OpenAI GPT-5.4, Anthropic Claude Sonnet 4.6, Google Gemini 2.5 Pro y Google Gemini 3.1 Pro — en una tarea simple: estimar carbohidratos a partir de fotos de alimentos. Las mismas 13 fotos, el mismo prompt, las mismas configuraciones, repetidas más de 500 veces por modelo (26,904 consultas en total). Los resultados muestran que incluso con la configuración de aleatoriedad más baja, la reproducibilidad es enormemente inconsistente entre modelos.
Hallazgos Clave
- Diferencia máxima: Las estimaciones de Gemini 2.5 Pro para una sola foto de paella oscilaron entre 55g y 484g, una diferencia de 429g. Con una proporción insulina:carbohidratos de 1:10, eso son 42.9 unidades de insulina. Un error potencialmente mortal.
- Variación media (CV): Claude 2.4%, GPT-5.4 8.4%, Gemini 3.1 Pro 10.3%, Gemini 2.5 Pro 11.0%.
- Cambio de insulina medio: Claude 0.9U, GPT-5.4 2.3U, Gemini 3.1 Pro 2.9U, Gemini 2.5 Pro 4.7U.
- Cambio de insulina máximo: Claude 13.6U, GPT-5.4 16.6U, Gemini 3.1 Pro 16.2U, Gemini 2.5 Pro 42.9U.
El Problema de "Precisamente Incorrecto"
Tres modelos (Claude, Gemini 2.5 Pro, Gemini 3.1 Pro) convergieron independientemente en ~28g para un sándwich de queso con un valor de referencia de 40g (etiqueta del paquete: 20g por rebanada de pan). Claude mostró solo un 0.3% de CV en 510 consultas, pero cada consulta estaba 12g por debajo, una dosis insuficiente constante de ~1.2U. GPT-5.4 se inclinó en la otra dirección, promediando ~74g con alta variabilidad.
Errores de Identificación de Alimentos
- Bakewell tart: Claude la llamó "Linzer torte" el 100% de las veces. GPT-5.4 la llamó "tarta de mermelada" o "barra de pastel". Solo Gemini 3.1 Pro la identificó correctamente (99.8%).
- Crema catalana: Tres de cuatro modelos la llamaron "crème brûlée" el 100% de las veces. Gemini 3.1 Pro acertó solo en el 3.4% de las consultas.
- Sándwich de queso: Gemini 3.1 Pro alucinó "carne de fiambre" en el 17.4% de las consultas, lo que podría inflar las estimaciones de carbohidratos.
Riesgo de Dosificación de Insulina
En cinco imágenes con valores de referencia sólidos, Claude fue el único modelo con cero consultas en las zonas "clínicamente significativas" (error de 2-5U) o "riesgo de hipoglucemia severa" (error >5U). El 100% de las consultas de Claude estuvieron en zonas seguras o moderadas. Los otros modelos produjeron valores atípicos peligrosos con cada imagen.
Conclusión: un solo número de cualquier aplicación de conteo de carbohidratos con IA no brinda a los usuarios visibilidad sobre la distribución subyacente de las estimaciones. La alta consistencia (Claude) no garantiza precisión. La baja consistencia (Gemini) puede producir cualquier resultado. Los sistemas en producción deben considerar esta varianza.
📖 Lee la fuente original: HN AI Agents
👀 Ver también

Meta capturará los movimientos del mouse y las pulsaciones de teclas de sus empleados para entrenamiento de IA.
Meta planea comenzar a capturar los movimientos del ratón y las pulsaciones de teclas de los empleados para datos de entrenamiento de IA, según un informe de Reuters. El artículo ha generado discusión en Hacker News con 33 puntos y 7 comentarios.

Estudio de Stanford: Profesores de Derecho Prefieren Respuestas de IA sobre las de sus Colegas el 75% del Tiempo
En una evaluación ciega de casi 3,000 comparaciones, los profesores de derecho calificaron significativamente mejor las respuestas generadas por IA que las escritas por colegas. Las respuestas de IA fueron señaladas como dañinas solo el 3.5% del tiempo, frente al 12% de las humanas.

GitHub desactiva la capacidad de Copilot para insertar anuncios en las solicitudes de extracción tras el rechazo de los desarrolladores.
GitHub ha eliminado la capacidad de Copilot de insertar 'consejos' promocionales en las solicitudes de extracción después de que los desarrolladores descubrieron que estaba agregando anuncios de herramientas como Raycast. La función, que permitía a Copilot editar PRs que no creó cuando se lo mencionaba, se desactivó tras los comentarios de la comunidad.

Anthropic presenta una demanda para evitar que el Pentágono la incluya en la lista negra por restricciones de IA.
Anthropic ha presentado una demanda para impedir que el Pentágono la incluya en la lista negra por restricciones en el uso de IA, según un informe de Reuters compartido en Hacker News.