ThermoQA Benchmark : 293 Problèmes Thermodynamique pour LLM

Vue d'ensemble du benchmark ThermoQA

ThermoQA est un benchmark ouvert pour la thermodynamique technique, comprenant 293 problèmes de calcul ouverts répartis sur trois niveaux :

Niveau 1 : Recherches de propriétés (110 questions) — Exemple : "quelle est l'enthalpie de l'eau à 5 MPa, 400°C ?"
Niveau 2 : Analyse de composants (101 questions) — Turbines, compresseurs, échangeurs de chaleur avec calculs d'énergie/entropie/exergie
Niveau 3 : Analyse de cycle complet (82 questions) — Cycles de Rankine, Brayton, turbines à gaz à cycle combiné

Les données de référence proviennent de CoolProp (IAPWS-IF97). Pas de choix multiples — les modèles doivent produire des valeurs numériques exactes.

1. Claude Opus 4.6 : Niveau 1 : 96,4 %, Niveau 2 : 92,1 %, Niveau 3 : 93,6 %, Composite : 94,1 %
2. GPT-5.4 : Niveau 1 : 97,8 %, Niveau 2 : 90,8 %, Niveau 3 : 89,7 %, Composite : 93,1 %
3. Gemini 3.1 Pro : Niveau 1 : 97,9 %, Niveau 2 : 90,8 %, Niveau 3 : 87,5 %, Composite : 92,5 %
4. DeepSeek-R1 : Niveau 1 : 90,5 %, Niveau 2 : 89,2 %, Niveau 3 : 81,0 %, Composite : 87,4 %
5. Grok 4 : Niveau 1 : 91,8 %, Niveau 2 : 87,9 %, Niveau 3 : 80,4 %, Composite : 87,3 %
6. MiniMax M2.5 : Niveau 1 : 85,2 %, Niveau 2 : 76,2 %, Niveau 3 : 52,7 %, Composite : 73,0 %

Les classements varient entre les niveaux : Gemini est en tête au Niveau 1 (97,9 %) mais chute à la 3e place au Niveau 3 (87,5 %). Opus est 3e sur les recherches mais 1er sur l'analyse de cycles, montrant que mémoriser les tables de vapeur ≠ raisonnement.
L'eau supercritique perturbe tout : écart de 44,5 points de pourcentage. Les modèles mémorisent les tables des manuels mais ne peuvent pas gérer les régions non linéaires près du point critique. Un modèle a donné h = 1 887 kJ/kg alors que la valeur correcte est 2 586 kJ/kg — une erreur de 27 %.
Le R-134a est le point aveugle : Tous les modèles chutent à 44–63 % sur les problèmes de réfrigérant contre 75–98 % sur l'eau, montrant un biais dans les données d'entraînement.
La cohérence d'exécution varie d'un facteur 10 : GPT-5.4 σ = ±0,1 % sur le Niveau 3 contre DeepSeek-R1 σ = ±2,5 % sur le Niveau 2.