ThermoQA: 293 задачи по термодинамике для LLM

Обзор бенчмарка ThermoQA

ThermoQA — это открытый бенчмарк по инженерной термодинамике, содержащий 293 открытые расчётные задачи трёх уровней:

Уровень 1: Поиск свойств (110 вопросов) — Пример: «какова энтальпия воды при 5 МПа и 400°C?»
Уровень 2: Анализ компонентов (101 вопрос) — Турбины, компрессоры, теплообменники с расчётами энергии, энтропии и эксергии
Уровень 3: Анализ полных циклов (82 вопроса) — Циклы Ренкина, Брайтона, парогазовые установки

Эталонные данные взяты из CoolProp (IAPWS-IF97). Множественный выбор отсутствует — модели должны выдавать точные численные значения.

1. Claude Opus 4.6: Уровень 1: 96,4%, Уровень 2: 92,1%, Уровень 3: 93,6%, Совокупный: 94,1%
2. GPT-5.4: Уровень 1: 97,8%, Уровень 2: 90,8%, Уровень 3: 89,7%, Совокупный: 93,1%
3. Gemini 3.1 Pro: Уровень 1: 97,9%, Уровень 2: 90,8%, Уровень 3: 87,5%, Совокупный: 92,5%
4. DeepSeek-R1: Уровень 1: 90,5%, Уровень 2: 89,2%, Уровень 3: 81,0%, Совокупный: 87,4%
5. Grok 4: Уровень 1: 91,8%, Уровень 2: 87,9%, Уровень 3: 80,4%, Совокупный: 87,3%
6. MiniMax M2.5: Уровень 1: 85,2%, Уровень 2: 76,2%, Уровень 3: 52,7%, Совокупный: 73,0%

Ранги меняются между уровнями: Gemini лидирует на Уровне 1 (97,9%), но опускается на 3-е место на Уровне 3 (87,5%). Opus занимает 3-е место по поиску свойств, но 1-е место по анализу циклов, что показывает: запоминание паровых таблиц ≠ логическое рассуждение.
Сверхкритическая вода всё ломает: Разброс в 44,5 процентных пункта. Модели запоминают таблицы из учебников, но не справляются с нелинейными областями вблизи критической точки. Одна модель дала h = 1 887 кДж/кг при правильном значении 2 586 кДж/кг — ошибка 27%.
R-134a — слепое пятно: Все модели показывают результат 44–63% по задачам с хладагентами против 75–98% по воде, что демонстрирует смещение в обучающих данных.
Стабильность между запусками различается в 10 раз: GPT-5.4 σ = ±0,1% на Уровне 3 против DeepSeek-R1 σ = ±2,5% на Уровне 2.