ThermoQA：エンジニアリング熱力学のためのオープンベンチマーク、293の計算問題でLLMをテスト

✍️ OpenClawRadar📅 公開日: March 21, 2026🔗 Source

ThermoQA：エンジニアリング熱力学のためのオープンベンチマーク、293の計算問題でLLMをテスト

Ad

ThermoQAベンチマーク概要

ThermoQAは、3つの階層にわたる293の自由記述計算問題からなる工学熱力学のオープンベンチマークです：

階層1：物性値検索（110問） — 例：「5MPa、400°Cにおける水のエンタルピーは？」
階層2：構成要素分析（101問） — タービン、圧縮機、熱交換器のエネルギー/エントロピー/エクセルギー計算
階層3：完全サイクル分析（82問） — ランキンサイクル、ブレイトンサイクル、複合サイクルガスタービン

正解データはCoolProp（IAPWS-IF97）に基づきます。選択式ではなく、モデルは正確な数値を出力する必要があります。

リーダーボード結果（3回実行平均）

1. Claude Opus 4.6：階層1：96.4%、階層2：92.1%、階層3：93.6%、総合：94.1%
2. GPT-5.4：階層1：97.8%、階層2：90.8%、階層3：89.7%、総合：93.1%
3. Gemini 3.1 Pro：階層1：97.9%、階層2：90.8%、階層3：87.5%、総合：92.5%
4. DeepSeek-R1：階層1：90.5%、階層2：89.2%、階層3：81.0%、総合：87.4%
5. Grok 4：階層1：91.8%、階層2：87.9%、階層3：80.4%、総合：87.3%
6. MiniMax M2.5：階層1：85.2%、階層2：76.2%、階層3：52.7%、総合：73.0%

Ad

主な発見

階層間で順位が逆転：Geminiは階層1で首位（97.9%）ですが、階層3では3位（87.5%）に低下。Opusは検索では3位ですが、サイクル分析では1位となり、蒸気表の暗記と推論は別物であることを示しています。
超臨界水が全てを破壊：44.5ポイントの差が生じました。モデルは教科書の表を暗記していますが、臨界点付近の非線形領域を扱えません。あるモデルはh = 1,887 kJ/kgと出力しましたが、正解は2,586 kJ/kgで、27%の誤差です。
R-134aが弱点：すべてのモデルが冷媒問題で44–63%に低下し、水の問題での75–98%と対照的で、トレーニングデータの偏りを示しています。
実行間の一貫性に10倍の差：GPT-5.4は階層3でσ = ±0.1%、DeepSeek-R1は階層2でσ = ±2.5%。

オープンソースリソース

データセット：https://huggingface.co/datasets/olivenet/thermoqa
コード：https://github.com/olivenet-iot/ThermoQA

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Kimi K2.6 vs Claude Opus 4.7: Minetest Bounty Board Modを使った実機テスト

Kimi K2.6 vs Claude Opus 4.7: Minetest Bounty Board Modを使った実機テスト

ある開発者が、TypeScriptバックエンドとGoogle Sheetsログ機能を備えたMinetest/Luantiのバウンティボードmodの構築において、Kimi K2.6とClaude Opus 4.7をテストしました。Opusはスムーズに動作しましたが、Kimiは統合部分で失敗しました。

May 5, 2026, 02:15 PM UTC

CerebrasがStep-3.5-Flash-REAPモデルをリリース、メモリ使用量を40%削減

CerebrasがStep-3.5-Flash-REAPモデルをリリース、メモリ使用量を40%削減

Cerebrasは、REAP（Router-weighted Expert Activation Pruning）を使用して196Bパラメータモデルを121Bに圧縮しながら、ほぼ同等の性能を維持するStep-3.5-Flash-REAPモデルをリリースしました。これらのモデルは標準のvLLMと互換性があり、リソースが限られた環境向けに最適化されています。

Feb 25, 2026, 03:45 PM UTC

ローカルLLM、Unreal Engineソリティアに苦戦：Qwen 3.6-27Bが1枚のカードに687kトークンを消費

ローカルLLM、Unreal Engineソリティアに苦戦：Qwen 3.6-27Bが1枚のカードに687kトークンを消費

開発者がQwen 3.6-27Bを使用してUnreal Engineでソリティアゲームを構築しようとした実験では、たった1枚のカードに687kトークンを消費し、PNGダウンロードの手動介入、メッシュ作成、大量のプロンプトが必要でした。

Jun 22, 2026, 12:17 AM UTC

Qwen3.6 27B FP8、RTX 5000 PRO 48GB上で200kトークンBF16 KVキャッシュを80 TPSで実行

Qwen3.6 27B FP8、RTX 5000 PRO 48GB上で200kトークンBF16 KVキャッシュを80 TPSで実行

Redditユーザーが、Qwen3.6 27B FP8をBF16 KVキャッシュ200kトークンで使用し、1枚のRTX 5000 PRO 48GB上で60～90 TPSを達成するvLLMセットアップを共有。完全な環境変数、設定、ベンチマーク結果を提供。

May 5, 2026, 06:15 AM UTC