ThermoQA : Benchmark ouvert pour l'ingénierie thermodynamique testant les LLM sur 293 problèmes de calcul

Vue d'ensemble du benchmark ThermoQA
ThermoQA est un benchmark ouvert pour la thermodynamique technique, comprenant 293 problèmes de calcul ouverts répartis sur trois niveaux :
- Niveau 1 : Recherches de propriétés (110 questions) — Exemple : "quelle est l'enthalpie de l'eau à 5 MPa, 400°C ?"
- Niveau 2 : Analyse de composants (101 questions) — Turbines, compresseurs, échangeurs de chaleur avec calculs d'énergie/entropie/exergie
- Niveau 3 : Analyse de cycle complet (82 questions) — Cycles de Rankine, Brayton, turbines à gaz à cycle combiné
Les données de référence proviennent de CoolProp (IAPWS-IF97). Pas de choix multiples — les modèles doivent produire des valeurs numériques exactes.
Résultats du classement (moyenne sur 3 exécutions)
- 1. Claude Opus 4.6 : Niveau 1 : 96,4 %, Niveau 2 : 92,1 %, Niveau 3 : 93,6 %, Composite : 94,1 %
- 2. GPT-5.4 : Niveau 1 : 97,8 %, Niveau 2 : 90,8 %, Niveau 3 : 89,7 %, Composite : 93,1 %
- 3. Gemini 3.1 Pro : Niveau 1 : 97,9 %, Niveau 2 : 90,8 %, Niveau 3 : 87,5 %, Composite : 92,5 %
- 4. DeepSeek-R1 : Niveau 1 : 90,5 %, Niveau 2 : 89,2 %, Niveau 3 : 81,0 %, Composite : 87,4 %
- 5. Grok 4 : Niveau 1 : 91,8 %, Niveau 2 : 87,9 %, Niveau 3 : 80,4 %, Composite : 87,3 %
- 6. MiniMax M2.5 : Niveau 1 : 85,2 %, Niveau 2 : 76,2 %, Niveau 3 : 52,7 %, Composite : 73,0 %
Principales conclusions
- Les classements varient entre les niveaux : Gemini est en tête au Niveau 1 (97,9 %) mais chute à la 3e place au Niveau 3 (87,5 %). Opus est 3e sur les recherches mais 1er sur l'analyse de cycles, montrant que mémoriser les tables de vapeur ≠ raisonnement.
- L'eau supercritique perturbe tout : écart de 44,5 points de pourcentage. Les modèles mémorisent les tables des manuels mais ne peuvent pas gérer les régions non linéaires près du point critique. Un modèle a donné h = 1 887 kJ/kg alors que la valeur correcte est 2 586 kJ/kg — une erreur de 27 %.
- Le R-134a est le point aveugle : Tous les modèles chutent à 44–63 % sur les problèmes de réfrigérant contre 75–98 % sur l'eau, montrant un biais dans les données d'entraînement.
- La cohérence d'exécution varie d'un facteur 10 : GPT-5.4 σ = ±0,1 % sur le Niveau 3 contre DeepSeek-R1 σ = ±2,5 % sur le Niveau 2.
Ressources open source
- Jeu de données : https://huggingface.co/datasets/olivenet/thermoqa
- Code : https://github.com/olivenet-iot/ThermoQA
📖 Read the full source: r/LocalLLaMA
👀 See Also

OpenClaw : Plongez dans le premier AMA sur r/clawdbot
Lors d'une passionnante session AMA, l'équipe d'OpenClaw a discuté de l'avenir des agents d'IA pour le codage sur le subreddit r/clawdbot de Reddit. Découvrez les principaux enseignements et points clés de cet événement interactif.

L'AMI de Yann LeCun lève 1 milliard de dollars pour des modèles du monde en IA, défiant l'approche des LLM.
La startup AMI de Yann LeCun a levé plus d'un milliard de dollars pour développer des modèles du monde en IA qui comprennent le monde physique, affirmant que les LLM seuls n'atteindront pas l'intelligence humaine. L'entreprise construira des systèmes dotés de mémoire persistante, de raisonnement et de capacités de planification pour des applications dans la fabrication, la biomédecine et la robotique.

Claude Code Opus 4.6 utilise désormais par défaut une fenêtre de contexte de 1 million de tokens
Le modèle Opus 4.6 de Claude Code est désormais doté par défaut d'une fenêtre de contexte d'un million de tokens, tout en conservant les mêmes tarifs que les versions précédentes. Ce changement semble être en vigueur sans annonce officielle.

Claude-Code v2.1.72 : Améliorations SSH, réduction des invites de permissions et corrections de bugs
Claude-Code v2.1.72 ajoute l'écriture de fichiers compatible SSH avec la touche /copy w, réduit les invites de permission bash en ajoutant des outils courants à la liste d'approbation automatique, et corrige plus de 20 bugs incluant des problèmes de mode vocal et d'installation de plugins.