ThermoQA: Offener Benchmark für Ingenieur-Thermodynamik testet LLMs an 293 Berechnungsproblemen

✍️ OpenClawRadar📅 Veröffentlicht: 21. März 2026🔗 Source
ThermoQA: Offener Benchmark für Ingenieur-Thermodynamik testet LLMs an 293 Berechnungsproblemen
Ad

Überblick über den ThermoQA-Benchmark

ThermoQA ist ein offener Benchmark für technische Thermodynamik mit 293 offenen Berechnungsproblemen über drei Stufen:

  • Stufe 1: Eigenschaftsnachschlagen (110 Fragen) — Beispiel: „Was ist die Enthalpie von Wasser bei 5 MPa, 400°C?“
  • Stufe 2: Komponentenanalyse (101 Fragen) — Turbinen, Kompressoren, Wärmetauscher mit Energie-/Entropie-/Exergie-Berechnungen
  • Stufe 3: Vollständige Kreisprozessanalyse (82 Fragen) — Rankine-, Brayton-, Kombi-Gasturbinen-Kreisläufe

Die Grundwahrheit stammt von CoolProp (IAPWS-IF97). Keine Multiple-Choice — Modelle müssen exakte numerische Werte liefern.

Leaderboard-Ergebnisse (Mittelwert über 3 Läufe)

  • 1. Claude Opus 4.6: Stufe 1: 96,4 %, Stufe 2: 92,1 %, Stufe 3: 93,6 %, Gesamt: 94,1 %
  • 2. GPT-5.4: Stufe 1: 97,8 %, Stufe 2: 90,8 %, Stufe 3: 89,7 %, Gesamt: 93,1 %
  • 3. Gemini 3.1 Pro: Stufe 1: 97,9 %, Stufe 2: 90,8 %, Stufe 3: 87,5 %, Gesamt: 92,5 %
  • 4. DeepSeek-R1: Stufe 1: 90,5 %, Stufe 2: 89,2 %, Stufe 3: 81,0 %, Gesamt: 87,4 %
  • 5. Grok 4: Stufe 1: 91,8 %, Stufe 2: 87,9 %, Stufe 3: 80,4 %, Gesamt: 87,3 %
  • 6. MiniMax M2.5: Stufe 1: 85,2 %, Stufe 2: 76,2 %, Stufe 3: 52,7 %, Gesamt: 73,0 %
Ad

Wesentliche Erkenntnisse

  • Ranglisten ändern sich zwischen den Stufen: Gemini führt in Stufe 1 (97,9 %), fällt aber in Stufe 3 auf Platz 3 (87,5 %). Opus ist in Stufe 3 auf Platz 1, zeigt also, dass das Auswendiglernen von Dampftabellen ≠ logisches Denken ist.
  • Überkritisches Wasser bricht alles: 44,5 Prozentpunkte Unterschied. Modelle lernen Lehrbuchtabellen auswendig, können aber nicht mit nichtlinearen Regionen nahe dem kritischen Punkt umgehen. Ein Modell gab h = 1.887 kJ/kg an, wo der korrekte Wert 2.586 kJ/kg ist — ein Fehler von 27 %.
  • R-134a ist die Schwachstelle: Alle Modelle fallen auf 44–63 % bei Kältemittelproblemen gegenüber 75–98 % bei Wasser, was eine Verzerrung der Trainingsdaten zeigt.
  • Lauf-zu-Lauf-Konsistenz variiert um das 10-fache: GPT-5.4 σ = ±0,1 % in Stufe 3 vs. DeepSeek-R1 σ = ±2,5 % in Stufe 2.

Open-Source-Ressourcen

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Claude-Code v2.1.79 fügt Fernsteuerung hinzu, behebt Subprozess-Hänger und verbessert die Speichernutzung.
Nachrichten

Claude-Code v2.1.79 fügt Fernsteuerung hinzu, behebt Subprozess-Hänger und verbessert die Speichernutzung.

Claude-Code v2.1.79 führt einen /remote-control-Befehl für VSCode ein, um Sitzungen zu claude.ai/code zu verbinden, behebt das Hängen von claude -p in Subprozessen und reduziert den Start-Speicherverbrauch um ~18 MB. Das Release fügt außerdem ein --console-Flag für die Anthropic Console-Authentifizierung hinzu und verbessert die API-Timeout-Behandlung.

OpenClawRadar
Analyse von 2.181 Remote-MCP-Server-Endpunkten zeigt Zuverlässigkeitsprobleme
Nachrichten

Analyse von 2.181 Remote-MCP-Server-Endpunkten zeigt Zuverlässigkeitsprobleme

Eine automatisierte Gesundheitsprüfung von 2.181 Remote-MCP-Server-Endpunkten ergab, dass nur 9 % als betriebsbereit und gesund bestätigt wurden, während 52 % vollständig tot sind und 37 % eine Authentifizierung erfordern. Die Daten umfassen Kategorieaufschlüsselungen, Latenzmessungen und Verfügbarkeitsstatistiken.

OpenClawRadar
OpenRouters Heiler-Alpha-Stealth-Modell scheint eine unveröffentlichte Variante von Qwen 3.5-Omni zu sein.
Nachrichten

OpenRouters Heiler-Alpha-Stealth-Modell scheint eine unveröffentlichte Variante von Qwen 3.5-Omni zu sein.

OpenRouter hat ein kostenloses anonymes omni-modales Modell namens Healer Alpha mit einem Kontextfenster von 262.144 und multimodalen Fähigkeiten bereitgestellt. Forensische Analysen deuten darauf hin, dass es sich um eine unveröffentlichte Qwen 3.5-Omni-Variante von Alibaba handelt.

OpenClawRadar
Trotz Ankündigungen: Claude Max 20x Plan - Keine Erhöhung der Limits - Nutzer bestätigt mit Mathematik
Nachrichten

Trotz Ankündigungen: Claude Max 20x Plan - Keine Erhöhung der Limits - Nutzer bestätigt mit Mathematik

Ein zahlender Nutzer von Claude Max 20x (200 $/Monat) berichtet, dass die von Anthropic angekündigten Erhöhungen des Sitzungslimits um das 2-fache und des wöchentlichen Limits um das 1,5-fache nicht auf sein Konto angewendet wurden. Er liefert mathematische Beweise und berichtet von völligem Fehlen einer Support-Antwort.

OpenClawRadar