IA comptage glucides : écart de 429g sur une photo, 4 modèles testés

Une prépublication nouvellement publiée a testé quatre modèles d'IA — OpenAI GPT-5.4, Anthropic Claude Sonnet 4.6, Google Gemini 2.5 Pro et Google Gemini 3.1 Pro — sur une tâche simple : estimer les glucides à partir de photos de nourriture. Les mêmes 13 photos, la même requête, les mêmes paramètres, répétés plus de 500 fois par modèle (26 904 requêtes au total). Les résultats montrent que même au réglage de hasard le plus bas, la reproductibilité est très inconstante selon les modèles.

Résultats clés

Écart le plus large : Les estimations de Gemini 2.5 Pro pour une seule photo de paella allaient de 55g à 484g — une différence de 429g. Avec un ratio insuline/glucides de 1:10, cela représente 42,9 unités d'insuline. Potentiellement fatal.
Variation médiane (CV) : Claude 2,4 %, GPT-5.4 8,4 %, Gemini 3.1 Pro 10,3 %, Gemini 2.5 Pro 11,0 %.
Écart médian d'insuline : Claude 0,9 U, GPT-5.4 2,3 U, Gemini 3.1 Pro 2,9 U, Gemini 2.5 Pro 4,7 U.
Écart maximal d'insuline : Claude 13,6 U, GPT-5.4 16,6 U, Gemini 3.1 Pro 16,2 U, Gemini 2.5 Pro 42,9 U.

Le problème du « précisément faux »

Trois modèles (Claude, Gemini 2.5 Pro, Gemini 3.1 Pro) ont convergé indépendamment vers environ 28g pour un sandwich au fromage avec une valeur de référence de 40g (étiquette du paquet : 20g par tranche de pain). Claude a montré seulement 0,3 % de CV sur 510 requêtes, pourtant chaque requête était en dessous de 12g — une sous-dose constante d'environ 1,2 U. GPT-5.4 a oscillé dans l'autre sens, avec une moyenne d'environ 74g et une grande variabilité.

Erreurs d'identification des aliments

Tarte Bakewell : Claude l'a appelée « Linzer torte » à 100 % du temps. GPT-5.4 l'a appelée « tarte à la confiture » ou « barre de gâteau ». Seul Gemini 3.1 Pro l'a correctement identifiée (99,8 %).
Crème catalane : Trois modèles sur quatre l'ont appelée « crème brûlée » à 100 % du temps. Gemini 3.1 Pro ne l'a identifiée correctement que dans 3,4 % des requêtes.
Sandwich au fromage : Gemini 3.1 Pro a halluciné de la « charcuterie » dans 17,4 % des requêtes — ce qui pourrait gonfler les estimations de glucides.

Risque lié au dosage d'insuline

Sur cinq images avec des valeurs de référence solides, Claude était le seul modèle avec zéro requête dans les zones « cliniquement significatives » (erreur de 2 à 5 U) ou « risque d'hypoglycémie sévère » (erreur >5 U). 100 % des requêtes de Claude se situaient dans des zones sûres ou modérées. Les autres modèles ont produit des valeurs aberrantes dangereuses pour chaque image.

En résumé : un seul chiffre provenant d'une application de comptage de glucides par IA ne donne à l'utilisateur aucune visibilité sur la distribution sous-jacente des estimations. Une grande cohérence (Claude) ne garantit pas l'exactitude. Une faible cohérence (Gemini) peut produire n'importe quel résultat. Les systèmes de production doivent tenir compte de cette variance.

📖 Lire la source complète : HN AI Agents

Comptage des glucides par IA échoue à la reproductibilité : 27 000 requêtes montrent un écart de 429 g sur une seule photo

Résultats clés

Le problème du « précisément faux »

Erreurs d'identification des aliments

Risque lié au dosage d'insuline

👀 See Also

La carte système de Claude Opus 4.6 révèle des résultats d'alignement préoccupants

Explorer n8n comme alternative aux compétences OpenClaw pour l'automatisation

Incident de Service Claude : Augmentation des Erreurs sur Toutes les Plateformes

Subquadratic lance une fenêtre de contexte de 12 millions de tokens pour les modèles d'IA