ThermoQA Benchmark: LLMs getestet mit 293 Thermodynamik-Problemen

Überblick über den ThermoQA-Benchmark

ThermoQA ist ein offener Benchmark für technische Thermodynamik mit 293 offenen Berechnungsproblemen über drei Stufen:

Stufe 1: Eigenschaftsnachschlagen (110 Fragen) — Beispiel: „Was ist die Enthalpie von Wasser bei 5 MPa, 400°C?“
Stufe 2: Komponentenanalyse (101 Fragen) — Turbinen, Kompressoren, Wärmetauscher mit Energie-/Entropie-/Exergie-Berechnungen
Stufe 3: Vollständige Kreisprozessanalyse (82 Fragen) — Rankine-, Brayton-, Kombi-Gasturbinen-Kreisläufe

Die Grundwahrheit stammt von CoolProp (IAPWS-IF97). Keine Multiple-Choice — Modelle müssen exakte numerische Werte liefern.

1. Claude Opus 4.6: Stufe 1: 96,4 %, Stufe 2: 92,1 %, Stufe 3: 93,6 %, Gesamt: 94,1 %
2. GPT-5.4: Stufe 1: 97,8 %, Stufe 2: 90,8 %, Stufe 3: 89,7 %, Gesamt: 93,1 %
3. Gemini 3.1 Pro: Stufe 1: 97,9 %, Stufe 2: 90,8 %, Stufe 3: 87,5 %, Gesamt: 92,5 %
4. DeepSeek-R1: Stufe 1: 90,5 %, Stufe 2: 89,2 %, Stufe 3: 81,0 %, Gesamt: 87,4 %
5. Grok 4: Stufe 1: 91,8 %, Stufe 2: 87,9 %, Stufe 3: 80,4 %, Gesamt: 87,3 %
6. MiniMax M2.5: Stufe 1: 85,2 %, Stufe 2: 76,2 %, Stufe 3: 52,7 %, Gesamt: 73,0 %

Ranglisten ändern sich zwischen den Stufen: Gemini führt in Stufe 1 (97,9 %), fällt aber in Stufe 3 auf Platz 3 (87,5 %). Opus ist in Stufe 3 auf Platz 1, zeigt also, dass das Auswendiglernen von Dampftabellen ≠ logisches Denken ist.
Überkritisches Wasser bricht alles: 44,5 Prozentpunkte Unterschied. Modelle lernen Lehrbuchtabellen auswendig, können aber nicht mit nichtlinearen Regionen nahe dem kritischen Punkt umgehen. Ein Modell gab h = 1.887 kJ/kg an, wo der korrekte Wert 2.586 kJ/kg ist — ein Fehler von 27 %.
R-134a ist die Schwachstelle: Alle Modelle fallen auf 44–63 % bei Kältemittelproblemen gegenüber 75–98 % bei Wasser, was eine Verzerrung der Trainingsdaten zeigt.
Lauf-zu-Lauf-Konsistenz variiert um das 10-fache: GPT-5.4 σ = ±0,1 % in Stufe 3 vs. DeepSeek-R1 σ = ±2,5 % in Stufe 2.