KI-Kohlenhydratzählen scheitert an Reproduzierbarkeit: 27.000 Anfragen ergeben 429g Abweichung bei einem Foto

Ein neu veröffentlichter Preprint testete vier KI-Modelle – OpenAI GPT-5.4, Anthropic Claude Sonnet 4.6, Google Gemini 2.5 Pro und Google Gemini 3.1 Pro – an einer einfachen Aufgabe: Kohlenhydrate aus Fotos von Lebensmitteln schätzen. Dieselben 13 Fotos, derselbe Prompt, dieselben Einstellungen, jeweils über 500 Mal wiederholt pro Modell (insgesamt 26.904 Abfragen). Die Ergebnisse zeigen, dass selbst bei niedrigster Zufallseinstellung die Reproduzierbarkeit zwischen den Modellen extrem inkonsistent ist.
Wichtigste Erkenntnisse
- Schlimmster Fall: Die Schätzungen von Gemini 2.5 Pro für ein einzelnes Paella-Foto reichten von 55 g bis 484 g – eine Differenz von 429 g. Bei einem Insulin-Kohlenhydrat-Verhältnis von 1:10 entspricht das 42,9 Einheiten Insulin. Potenziell tödlich.
- Mediane Variation (CV): Claude 2,4 %, GPT-5.4 8,4 %, Gemini 3.1 Pro 10,3 %, Gemini 2.5 Pro 11,0 %.
- Mediane Insulinabweichung: Claude 0,9 IE, GPT-5.4 2,3 IE, Gemini 3.1 Pro 2,9 IE, Gemini 2.5 Pro 4,7 IE.
- Schlimmste Insulinabweichung: Claude 13,6 IE, GPT-5.4 16,6 IE, Gemini 3.1 Pro 16,2 IE, Gemini 2.5 Pro 42,9 IE.
Das Problem der „präzisen Falschheit“
Drei Modelle (Claude, Gemini 2.5 Pro, Gemini 3.1 Pro) kamen unabhängig voneinander auf etwa 28 g für ein Käsesandwich mit einem Referenzwert von 40 g (Packungsangabe: 20 g pro Brotscheibe). Claude zeigte bei 510 Abfragen einen CV von nur 0,3 %, doch jede einzelne Abfrage lag 12 g zu niedrig – eine konstante Unterdosierung von etwa 1,2 IE. GPT-5.4 schlug in die andere Richtung aus, im Durchschnitt etwa 74 g mit hoher Variabilität.
Fehler bei der Lebensmittelidentifikation
- Bakewell Tart: Claude bezeichnete es zu 100 % als „Linzer Torte“. GPT-5.4 nannte es „Marmeladentörtchen“ oder „Riegel“. Nur Gemini 3.1 Pro erkannte es korrekt (99,8 %).
- Crema Catalana: Drei von vier Modellen nannten es zu 100 % „Crème Brûlée“. Gemini 3.1 Pro lag nur bei 3,4 % der Abfragen richtig.
- Käsesandwich: Gemini 3.1 Pro halluzinierte bei 17,4 % der Abfragen „Aufschnitt“ – was die Kohlenhydratschätzungen potenziell in die Höhe treibt.
Risiko der Insulindosierung
Bei fünf Bildern mit starken Referenzwerten war Claude das einzige Modell, das bei keinen Abfragen in den Zonen „klinisch signifikant“ (2-5 IE Fehler) oder „schweres Hypo-Risiko“ (>5 IE Fehler) lag. 100 % von Claudes Abfragen landeten in sicheren oder moderaten Zonen. Die anderen Modelle lieferten bei jedem Bild gefährliche Ausreißer.
Fazit: Eine einzelne Zahl aus einer beliebigen KI-Kohlenhydratzähl-App gibt dem Benutzer keine Transparenz über die zugrunde liegende Verteilung der Schätzungen. Hohe Konsistenz (Claude) garantiert keine Genauigkeit. Niedrige Konsistenz (Gemini) kann jedes Ergebnis liefern. Produktionssysteme müssen diese Varianz berücksichtigen.
📖 Vollständige Quelle lesen: HN AI Agents
👀 Siehe auch

Adaptive Inferenz-Routing-Vorschlag für KI-Abfrageeffizienz
Ein im April 2026 bei Anthropic eingereichter Vorschlag skizziert ein fünfstufiges System zur Weiterleitung von Anfragen an geeignete KI-Modelle basierend auf einem Komplexitäts-Scoring, das einfache Signale wie Zeichenanzahl und Satzanzahl nutzt, bevor überhaupt eine Modellinferenz stattfindet.

Blocks 4.000 Stellenstreichungen wecken Bedenken wegen "AI-Washing"
Block kündigte 4.000 Stellenstreichungen an, die Verdacht auf AI-Washing erweckt haben. Die Geschichte erzielte 10 Punkte und 3 Kommentare auf Hacker News.

Gerichtsbeschluss in Georgia enthält von KI erfundene Rechtszitate
Eine Berufung vor dem Obersten Gerichtshof von Georgia enthüllte, dass eine Gerichtsverfügung mindestens fünf Verweise auf nicht existierende Fälle und fünf weitere auf Fälle enthielt, die die zitierten Aussagen nicht stützen, wobei die vom Staatsanwalt vorgeschlagene Verfügung dieselben Fehler aufwies.

Beweis der Modellidentität mit der Modellverpackungstechnologie von Tinfoil
Tinfoils Modelwrap sorgt dafür, dass Inferenzanbieter die genauen Modellgewichte bereitstellen, die sie behaupten, und verwendet dabei kryptografische Verpflichtungen, die von sicheren Enklaven überprüft werden.