ThermoQA: Открытый эталон для инженерной термодинамики, тестирующий большие языковые модели на 293 расчетных задачах

✍️ OpenClawRadar📅 Опубликовано: 21 марта 2026 г.🔗 Source
ThermoQA: Открытый эталон для инженерной термодинамики, тестирующий большие языковые модели на 293 расчетных задачах
Ad

Обзор бенчмарка ThermoQA

ThermoQA — это открытый бенчмарк по инженерной термодинамике, содержащий 293 открытые расчётные задачи трёх уровней:

  • Уровень 1: Поиск свойств (110 вопросов) — Пример: «какова энтальпия воды при 5 МПа и 400°C?»
  • Уровень 2: Анализ компонентов (101 вопрос) — Турбины, компрессоры, теплообменники с расчётами энергии, энтропии и эксергии
  • Уровень 3: Анализ полных циклов (82 вопроса) — Циклы Ренкина, Брайтона, парогазовые установки

Эталонные данные взяты из CoolProp (IAPWS-IF97). Множественный выбор отсутствует — модели должны выдавать точные численные значения.

Результаты лидерборда (среднее за 3 запуска)

  • 1. Claude Opus 4.6: Уровень 1: 96,4%, Уровень 2: 92,1%, Уровень 3: 93,6%, Совокупный: 94,1%
  • 2. GPT-5.4: Уровень 1: 97,8%, Уровень 2: 90,8%, Уровень 3: 89,7%, Совокупный: 93,1%
  • 3. Gemini 3.1 Pro: Уровень 1: 97,9%, Уровень 2: 90,8%, Уровень 3: 87,5%, Совокупный: 92,5%
  • 4. DeepSeek-R1: Уровень 1: 90,5%, Уровень 2: 89,2%, Уровень 3: 81,0%, Совокупный: 87,4%
  • 5. Grok 4: Уровень 1: 91,8%, Уровень 2: 87,9%, Уровень 3: 80,4%, Совокупный: 87,3%
  • 6. MiniMax M2.5: Уровень 1: 85,2%, Уровень 2: 76,2%, Уровень 3: 52,7%, Совокупный: 73,0%
Ad

Ключевые выводы

  • Ранги меняются между уровнями: Gemini лидирует на Уровне 1 (97,9%), но опускается на 3-е место на Уровне 3 (87,5%). Opus занимает 3-е место по поиску свойств, но 1-е место по анализу циклов, что показывает: запоминание паровых таблиц ≠ логическое рассуждение.
  • Сверхкритическая вода всё ломает: Разброс в 44,5 процентных пункта. Модели запоминают таблицы из учебников, но не справляются с нелинейными областями вблизи критической точки. Одна модель дала h = 1 887 кДж/кг при правильном значении 2 586 кДж/кг — ошибка 27%.
  • R-134a — слепое пятно: Все модели показывают результат 44–63% по задачам с хладагентами против 75–98% по воде, что демонстрирует смещение в обучающих данных.
  • Стабильность между запусками различается в 10 раз: GPT-5.4 σ = ±0,1% на Уровне 3 против DeepSeek-R1 σ = ±2,5% на Уровне 2.

Открытые ресурсы

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

AlphaEvolve: агент на базе Gemini от DeepMind оптимизирует алгоритмы в геномике, энергосетях и цепях TPC
Новости

AlphaEvolve: агент на базе Gemini от DeepMind оптимизирует алгоритмы в геномике, энергосетях и цепях TPC

AlphaEvolve, кодирующий агент на базе Gemini от Google DeepMind, снизил ошибки обнаружения вариантов DeepConsensus на 30%, повысил осуществимость AC Optimal Power Flow GNN с 14% до 88% и уменьшил ошибку квантовой схемы в 10 раз.

OpenClawRadar
Anthropic прекращает поддержку фиксированного расширенного мышления и внедряет адаптивное мышление в модели Claude
Новости

Anthropic прекращает поддержку фиксированного расширенного мышления и внедряет адаптивное мышление в модели Claude

Anthropic прекращает поддержку ручного расширенного мышления (фиксированный бюджет) на Opus 4.6 и Sonnet 4.6, и полностью удаляет его на Opus 4.7 (возвращает ошибку 400). Адаптивное мышление будет применяться по умолчанию, что вызвало недовольство сообщества, воспринявшего это как урезание расходов.

OpenClawRadar
Новый релиз OpenClaw: простое изменение имени или значительное обновление?
Новости

Новый релиз OpenClaw: простое изменение имени или значительное обновление?

OpenClaw, ранее известный как ClawDBot, претерпел трансформацию. Читайте дальше, чтобы узнать, является ли это изменение просто косметическим или же вводит новые функции и улучшенную стабильность.

OpenClawRadar
ИИ слишком дорог: гиперскейлерам нужно 3 триллиона долларов, чтобы выйти в ноль
Новости

ИИ слишком дорог: гиперскейлерам нужно 3 триллиона долларов, чтобы выйти в ноль

Гиперскейлеры инвестировали более $800 млрд в капитальные расходы на ИИ, а к 2027 году планируется еще $1 трлн. Одна только Microsoft потратила ~$100 млрд на инфраструктуру OpenAI, однако доходы от ИИ покрывают лишь ~20% ее капитальных затрат.

OpenClawRadar