ThermoQA: Открытый эталон для инженерной термодинамики, тестирующий большие языковые модели на 293 расчетных задачах

Обзор бенчмарка ThermoQA
ThermoQA — это открытый бенчмарк по инженерной термодинамике, содержащий 293 открытые расчётные задачи трёх уровней:
- Уровень 1: Поиск свойств (110 вопросов) — Пример: «какова энтальпия воды при 5 МПа и 400°C?»
- Уровень 2: Анализ компонентов (101 вопрос) — Турбины, компрессоры, теплообменники с расчётами энергии, энтропии и эксергии
- Уровень 3: Анализ полных циклов (82 вопроса) — Циклы Ренкина, Брайтона, парогазовые установки
Эталонные данные взяты из CoolProp (IAPWS-IF97). Множественный выбор отсутствует — модели должны выдавать точные численные значения.
Результаты лидерборда (среднее за 3 запуска)
- 1. Claude Opus 4.6: Уровень 1: 96,4%, Уровень 2: 92,1%, Уровень 3: 93,6%, Совокупный: 94,1%
- 2. GPT-5.4: Уровень 1: 97,8%, Уровень 2: 90,8%, Уровень 3: 89,7%, Совокупный: 93,1%
- 3. Gemini 3.1 Pro: Уровень 1: 97,9%, Уровень 2: 90,8%, Уровень 3: 87,5%, Совокупный: 92,5%
- 4. DeepSeek-R1: Уровень 1: 90,5%, Уровень 2: 89,2%, Уровень 3: 81,0%, Совокупный: 87,4%
- 5. Grok 4: Уровень 1: 91,8%, Уровень 2: 87,9%, Уровень 3: 80,4%, Совокупный: 87,3%
- 6. MiniMax M2.5: Уровень 1: 85,2%, Уровень 2: 76,2%, Уровень 3: 52,7%, Совокупный: 73,0%
Ключевые выводы
- Ранги меняются между уровнями: Gemini лидирует на Уровне 1 (97,9%), но опускается на 3-е место на Уровне 3 (87,5%). Opus занимает 3-е место по поиску свойств, но 1-е место по анализу циклов, что показывает: запоминание паровых таблиц ≠ логическое рассуждение.
- Сверхкритическая вода всё ломает: Разброс в 44,5 процентных пункта. Модели запоминают таблицы из учебников, но не справляются с нелинейными областями вблизи критической точки. Одна модель дала h = 1 887 кДж/кг при правильном значении 2 586 кДж/кг — ошибка 27%.
- R-134a — слепое пятно: Все модели показывают результат 44–63% по задачам с хладагентами против 75–98% по воде, что демонстрирует смещение в обучающих данных.
- Стабильность между запусками различается в 10 раз: GPT-5.4 σ = ±0,1% на Уровне 3 против DeepSeek-R1 σ = ±2,5% на Уровне 2.
Открытые ресурсы
- Набор данных: https://huggingface.co/datasets/olivenet/thermoqa
- Код: https://github.com/olivenet-iot/ThermoQA
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

AlphaEvolve: агент на базе Gemini от DeepMind оптимизирует алгоритмы в геномике, энергосетях и цепях TPC
AlphaEvolve, кодирующий агент на базе Gemini от Google DeepMind, снизил ошибки обнаружения вариантов DeepConsensus на 30%, повысил осуществимость AC Optimal Power Flow GNN с 14% до 88% и уменьшил ошибку квантовой схемы в 10 раз.

Anthropic прекращает поддержку фиксированного расширенного мышления и внедряет адаптивное мышление в модели Claude
Anthropic прекращает поддержку ручного расширенного мышления (фиксированный бюджет) на Opus 4.6 и Sonnet 4.6, и полностью удаляет его на Opus 4.7 (возвращает ошибку 400). Адаптивное мышление будет применяться по умолчанию, что вызвало недовольство сообщества, воспринявшего это как урезание расходов.

Новый релиз OpenClaw: простое изменение имени или значительное обновление?
OpenClaw, ранее известный как ClawDBot, претерпел трансформацию. Читайте дальше, чтобы узнать, является ли это изменение просто косметическим или же вводит новые функции и улучшенную стабильность.

ИИ слишком дорог: гиперскейлерам нужно 3 триллиона долларов, чтобы выйти в ноль
Гиперскейлеры инвестировали более $800 млрд в капитальные расходы на ИИ, а к 2027 году планируется еще $1 трлн. Одна только Microsoft потратила ~$100 млрд на инфраструктуру OpenAI, однако доходы от ИИ покрывают лишь ~20% ее капитальных затрат.