ThermoQA: Benchmark de 293 Problemas de Termodinâmica para LLMs

Visão Geral do Benchmark ThermoQA

ThermoQA é um benchmark aberto para termodinâmica de engenharia com 293 problemas de cálculo abertos em três níveis:

Nível 1: Consultas de propriedades (110 questões) — Exemplo: "qual é a entalpia da água a 5 MPa, 400°C?"
Nível 2: Análise de componentes (101 questões) — Turbinas, compressores, trocadores de calor com cálculos de energia/entropia/exergia
Nível 3: Análise de ciclo completo (82 questões) — Rankine, Brayton, turbinas a gás de ciclo combinado

A verdade fundamental vem do CoolProp (IAPWS-IF97). Sem múltipla escolha — os modelos devem produzir valores numéricos exatos.

1. Claude Opus 4.6: Nível 1: 96,4%, Nível 2: 92,1%, Nível 3: 93,6%, Composta: 94,1%
2. GPT-5.4: Nível 1: 97,8%, Nível 2: 90,8%, Nível 3: 89,7%, Composta: 93,1%
3. Gemini 3.1 Pro: Nível 1: 97,9%, Nível 2: 90,8%, Nível 3: 87,5%, Composta: 92,5%
4. DeepSeek-R1: Nível 1: 90,5%, Nível 2: 89,2%, Nível 3: 81,0%, Composta: 87,4%
5. Grok 4: Nível 1: 91,8%, Nível 2: 87,9%, Nível 3: 80,4%, Composta: 87,3%
6. MiniMax M2.5: Nível 1: 85,2%, Nível 2: 76,2%, Nível 3: 52,7%, Composta: 73,0%

Os rankings mudam entre os níveis: Gemini lidera o Nível 1 (97,9%) mas cai para #3 no Nível 3 (87,5%). Opus é #3 nas consultas mas #1 na análise de ciclos, mostrando que memorizar tabelas de vapor ≠ raciocínio.
Água supercrítica quebra tudo: Diferença de 44,5 pontos percentuais. Os modelos memorizam tabelas de livros mas não conseguem lidar com regiões não lineares perto do ponto crítico. Um modelo deu h = 1.887 kJ/kg onde o valor correto é 2.586 kJ/kg — um erro de 27%.
R-134a é o ponto cego: Todos os modelos caem para 44–63% em problemas com refrigerante vs 75–98% com água, mostrando viés nos dados de treinamento.
A consistência entre execuções varia 10×: GPT-5.4 σ = ±0,1% no Nível 3 vs DeepSeek-R1 σ = ±2,5% no Nível 2.