ThermoQA:エンジニアリング熱力学のためのオープンベンチマーク、293の計算問題でLLMをテスト

Ad
ThermoQAベンチマーク概要
ThermoQAは、3つの階層にわたる293の自由記述計算問題からなる工学熱力学のオープンベンチマークです:
- 階層1:物性値検索(110問) — 例:「5MPa、400°Cにおける水のエンタルピーは?」
- 階層2:構成要素分析(101問) — タービン、圧縮機、熱交換器のエネルギー/エントロピー/エクセルギー計算
- 階層3:完全サイクル分析(82問) — ランキンサイクル、ブレイトンサイクル、複合サイクルガスタービン
正解データはCoolProp(IAPWS-IF97)に基づきます。選択式ではなく、モデルは正確な数値を出力する必要があります。
リーダーボード結果(3回実行平均)
- 1. Claude Opus 4.6:階層1:96.4%、階層2:92.1%、階層3:93.6%、総合:94.1%
- 2. GPT-5.4:階層1:97.8%、階層2:90.8%、階層3:89.7%、総合:93.1%
- 3. Gemini 3.1 Pro:階層1:97.9%、階層2:90.8%、階層3:87.5%、総合:92.5%
- 4. DeepSeek-R1:階層1:90.5%、階層2:89.2%、階層3:81.0%、総合:87.4%
- 5. Grok 4:階層1:91.8%、階層2:87.9%、階層3:80.4%、総合:87.3%
- 6. MiniMax M2.5:階層1:85.2%、階層2:76.2%、階層3:52.7%、総合:73.0%
Ad
主な発見
- 階層間で順位が逆転:Geminiは階層1で首位(97.9%)ですが、階層3では3位(87.5%)に低下。Opusは検索では3位ですが、サイクル分析では1位となり、蒸気表の暗記と推論は別物であることを示しています。
- 超臨界水が全てを破壊:44.5ポイントの差が生じました。モデルは教科書の表を暗記していますが、臨界点付近の非線形領域を扱えません。あるモデルはh = 1,887 kJ/kgと出力しましたが、正解は2,586 kJ/kgで、27%の誤差です。
- R-134aが弱点:すべてのモデルが冷媒問題で44–63%に低下し、水の問題での75–98%と対照的で、トレーニングデータの偏りを示しています。
- 実行間の一貫性に10倍の差:GPT-5.4は階層3でσ = ±0.1%、DeepSeek-R1は階層2でσ = ±2.5%。
オープンソースリソース
- データセット:https://huggingface.co/datasets/olivenet/thermoqa
- コード:https://github.com/olivenet-iot/ThermoQA
📖 Read the full source: r/LocalLLaMA
Ad
👀 See Also

News
Google、AIの「合法的な」使用に関する機密国防総省契約に署名
Googleは、米国防総省が自社のAIモデルを合法的な政府目的に使用することを許可する機密契約を結んだと報じられている。大量監視や自律型兵器に対する制限は非拘束的な合意に過ぎない。
OpenClawRadar

News
AIデータセンターが地域の気温を最大9.1℃上昇させる可能性、研究で判明
ケンブリッジ大学の研究によると、AIデータセンターは稼働開始後、地表温度を平均2°C上昇させ、極端なケースでは9.1°Cの上昇が10キロメートル離れた地域にまで影響を及ぼすことが判明しました。
OpenClawRadar

News
GPT-5.5がGitHub Copilotで利用可能に、プレミアム倍率は7.5倍
OpenAIのGPT-5.5がGitHub Copilotで展開開始。複数ステップにわたるエージェント型コーディングが改善され、Pro+、Business、Enterpriseユーザー向けに7.5倍のプロモーションリクエスト倍率を提供。
OpenClawRadar

News
Docker OpenClaw ブリッジネットワークにおけるControl-UI LANアクセス問題
ユーザーが、Dockerブリッジネットワーク内でLAN接続を介してOpenClawのControl-UIにアクセスする際の持続的な問題を報告しています。バージョン2026.3.14では一時的にトークンベースのアクセスがサポートされましたが、その後のバージョンではペアリングを要求し、スコープエラーを発生させるように戻されました。
OpenClawRadar