KI-Kohlenhydratzählen: 429g Abweichung bei 27.000 Anfragen

Ein neu veröffentlichter Preprint testete vier KI-Modelle – OpenAI GPT-5.4, Anthropic Claude Sonnet 4.6, Google Gemini 2.5 Pro und Google Gemini 3.1 Pro – an einer einfachen Aufgabe: Kohlenhydrate aus Fotos von Lebensmitteln schätzen. Dieselben 13 Fotos, derselbe Prompt, dieselben Einstellungen, jeweils über 500 Mal wiederholt pro Modell (insgesamt 26.904 Abfragen). Die Ergebnisse zeigen, dass selbst bei niedrigster Zufallseinstellung die Reproduzierbarkeit zwischen den Modellen extrem inkonsistent ist.

Wichtigste Erkenntnisse

Schlimmster Fall: Die Schätzungen von Gemini 2.5 Pro für ein einzelnes Paella-Foto reichten von 55 g bis 484 g – eine Differenz von 429 g. Bei einem Insulin-Kohlenhydrat-Verhältnis von 1:10 entspricht das 42,9 Einheiten Insulin. Potenziell tödlich.
Mediane Variation (CV): Claude 2,4 %, GPT-5.4 8,4 %, Gemini 3.1 Pro 10,3 %, Gemini 2.5 Pro 11,0 %.
Mediane Insulinabweichung: Claude 0,9 IE, GPT-5.4 2,3 IE, Gemini 3.1 Pro 2,9 IE, Gemini 2.5 Pro 4,7 IE.
Schlimmste Insulinabweichung: Claude 13,6 IE, GPT-5.4 16,6 IE, Gemini 3.1 Pro 16,2 IE, Gemini 2.5 Pro 42,9 IE.

Das Problem der „präzisen Falschheit“

Drei Modelle (Claude, Gemini 2.5 Pro, Gemini 3.1 Pro) kamen unabhängig voneinander auf etwa 28 g für ein Käsesandwich mit einem Referenzwert von 40 g (Packungsangabe: 20 g pro Brotscheibe). Claude zeigte bei 510 Abfragen einen CV von nur 0,3 %, doch jede einzelne Abfrage lag 12 g zu niedrig – eine konstante Unterdosierung von etwa 1,2 IE. GPT-5.4 schlug in die andere Richtung aus, im Durchschnitt etwa 74 g mit hoher Variabilität.

Fehler bei der Lebensmittelidentifikation

Bakewell Tart: Claude bezeichnete es zu 100 % als „Linzer Torte“. GPT-5.4 nannte es „Marmeladentörtchen“ oder „Riegel“. Nur Gemini 3.1 Pro erkannte es korrekt (99,8 %).
Crema Catalana: Drei von vier Modellen nannten es zu 100 % „Crème Brûlée“. Gemini 3.1 Pro lag nur bei 3,4 % der Abfragen richtig.
Käsesandwich: Gemini 3.1 Pro halluzinierte bei 17,4 % der Abfragen „Aufschnitt“ – was die Kohlenhydratschätzungen potenziell in die Höhe treibt.

Risiko der Insulindosierung

Bei fünf Bildern mit starken Referenzwerten war Claude das einzige Modell, das bei keinen Abfragen in den Zonen „klinisch signifikant“ (2-5 IE Fehler) oder „schweres Hypo-Risiko“ (>5 IE Fehler) lag. 100 % von Claudes Abfragen landeten in sicheren oder moderaten Zonen. Die anderen Modelle lieferten bei jedem Bild gefährliche Ausreißer.

Fazit: Eine einzelne Zahl aus einer beliebigen KI-Kohlenhydratzähl-App gibt dem Benutzer keine Transparenz über die zugrunde liegende Verteilung der Schätzungen. Hohe Konsistenz (Claude) garantiert keine Genauigkeit. Niedrige Konsistenz (Gemini) kann jedes Ergebnis liefern. Produktionssysteme müssen diese Varianz berücksichtigen.

📖 Vollständige Quelle lesen: HN AI Agents

KI-Kohlenhydratzählen scheitert an Reproduzierbarkeit: 27.000 Anfragen ergeben 429g Abweichung bei einem Foto

Wichtigste Erkenntnisse

Das Problem der „präzisen Falschheit“

Fehler bei der Lebensmittelidentifikation

Risiko der Insulindosierung

👀 Siehe auch

Adaptive Inferenz-Routing-Vorschlag für KI-Abfrageeffizienz

Blocks 4.000 Stellenstreichungen wecken Bedenken wegen "AI-Washing"

Gerichtsbeschluss in Georgia enthält von KI erfundene Rechtszitate

Beweis der Modellidentität mit der Modellverpackungstechnologie von Tinfoil