Comptage des glucides par IA échoue à la reproductibilité : 27 000 requêtes montrent un écart de 429 g sur une seule photo

✍️ OpenClawRadar📅 Publié: April 29, 2026🔗 Source
Comptage des glucides par IA échoue à la reproductibilité : 27 000 requêtes montrent un écart de 429 g sur une seule photo
Ad

Une prépublication nouvellement publiée a testé quatre modèles d'IA — OpenAI GPT-5.4, Anthropic Claude Sonnet 4.6, Google Gemini 2.5 Pro et Google Gemini 3.1 Pro — sur une tâche simple : estimer les glucides à partir de photos de nourriture. Les mêmes 13 photos, la même requête, les mêmes paramètres, répétés plus de 500 fois par modèle (26 904 requêtes au total). Les résultats montrent que même au réglage de hasard le plus bas, la reproductibilité est très inconstante selon les modèles.

Résultats clés

  • Écart le plus large : Les estimations de Gemini 2.5 Pro pour une seule photo de paella allaient de 55g à 484g — une différence de 429g. Avec un ratio insuline/glucides de 1:10, cela représente 42,9 unités d'insuline. Potentiellement fatal.
  • Variation médiane (CV) : Claude 2,4 %, GPT-5.4 8,4 %, Gemini 3.1 Pro 10,3 %, Gemini 2.5 Pro 11,0 %.
  • Écart médian d'insuline : Claude 0,9 U, GPT-5.4 2,3 U, Gemini 3.1 Pro 2,9 U, Gemini 2.5 Pro 4,7 U.
  • Écart maximal d'insuline : Claude 13,6 U, GPT-5.4 16,6 U, Gemini 3.1 Pro 16,2 U, Gemini 2.5 Pro 42,9 U.

Le problème du « précisément faux »

Trois modèles (Claude, Gemini 2.5 Pro, Gemini 3.1 Pro) ont convergé indépendamment vers environ 28g pour un sandwich au fromage avec une valeur de référence de 40g (étiquette du paquet : 20g par tranche de pain). Claude a montré seulement 0,3 % de CV sur 510 requêtes, pourtant chaque requête était en dessous de 12g — une sous-dose constante d'environ 1,2 U. GPT-5.4 a oscillé dans l'autre sens, avec une moyenne d'environ 74g et une grande variabilité.

Ad

Erreurs d'identification des aliments

  • Tarte Bakewell : Claude l'a appelée « Linzer torte » à 100 % du temps. GPT-5.4 l'a appelée « tarte à la confiture » ou « barre de gâteau ». Seul Gemini 3.1 Pro l'a correctement identifiée (99,8 %).
  • Crème catalane : Trois modèles sur quatre l'ont appelée « crème brûlée » à 100 % du temps. Gemini 3.1 Pro ne l'a identifiée correctement que dans 3,4 % des requêtes.
  • Sandwich au fromage : Gemini 3.1 Pro a halluciné de la « charcuterie » dans 17,4 % des requêtes — ce qui pourrait gonfler les estimations de glucides.

Risque lié au dosage d'insuline

Sur cinq images avec des valeurs de référence solides, Claude était le seul modèle avec zéro requête dans les zones « cliniquement significatives » (erreur de 2 à 5 U) ou « risque d'hypoglycémie sévère » (erreur >5 U). 100 % des requêtes de Claude se situaient dans des zones sûres ou modérées. Les autres modèles ont produit des valeurs aberrantes dangereuses pour chaque image.

En résumé : un seul chiffre provenant d'une application de comptage de glucides par IA ne donne à l'utilisateur aucune visibilité sur la distribution sous-jacente des estimations. Une grande cohérence (Claude) ne garantit pas l'exactitude. Une faible cohérence (Gemini) peut produire n'importe quel résultat. Les systèmes de production doivent tenir compte de cette variance.

📖 Lire la source complète : HN AI Agents

Ad

👀 See Also

Anthropic supprime l'accès au corps des messages Gmail du connecteur Claude
News

Anthropic supprime l'accès au corps des messages Gmail du connecteur Claude

Anthropic a supprimé les outils gmail_read_message et gmail_search_messages du connecteur Gmail, les remplaçant par get_thread et search_threads qui ne renvoient plus les corps de messages ou le contenu des pièces jointes.

OpenClawRadar
Publication Reddit aborde les boucles de réparation internes pour l'IA créative sans code.
News

Publication Reddit aborde les boucles de réparation internes pour l'IA créative sans code.

Un post Reddit soutient que les systèmes d'IA créative sans code nécessitent des mécanismes de réparation internes pour gérer les échecs de bon sens, comme des structures mécaniques impossibles ou une anatomie déformée, plutôt que de faire déboguer les sorties par les utilisateurs.

OpenClawRadar
Claude Code 2.1.136 : Sécurité des actions, règles de refus strictes et moniteur de sécurité
News

Claude Code 2.1.136 : Sécurité des actions, règles de refus strictes et moniteur de sécurité

Claude Code CC 2.1.136 ajoute des exigences de sécurité d'action et de rapport véridique, introduit hard_deny comme quatrième catégorie de règle personnalisée, et divise le blocage de sécurité en blocs durs inconditionnels et blocs mous autorisables par l'utilisateur.

OpenClawRadar
Un pote refuse un poste à plus de 300 000 $ qui remplacerait 70 % du personnel par des agents Claude — Reddit débat de la réalité morale et technique
News

Un pote refuse un poste à plus de 300 000 $ qui remplacerait 70 % du personnel par des agents Claude — Reddit débat de la réalité morale et technique

Un post Reddit décrit un ami qui a refusé un poste de « Responsable de la transition IA » pour cartographier les flux de travail, construire des pipelines d'agents Claude/GPT et licencier 70 % du personnel. L'auteur soutient que les 300 000 $ et plus valent la peine de perdre du temps et de regarder la direction se planter dans son délire.

OpenClawRadar