ThermoQA: Benchmark Abierto Evalúa LLMs con 293 Problemas

Resumen del Punto de Referencia ThermoQA

ThermoQA es un punto de referencia abierto para termodinámica de ingeniería con 293 problemas de cálculo de respuesta abierta en tres niveles:

Nivel 1: Consultas de propiedades (110 preguntas) — Ejemplo: "¿cuál es la entalpía del agua a 5 MPa, 400°C?"
Nivel 2: Análisis de componentes (101 preguntas) — Turbinas, compresores, intercambiadores de calor con cálculos de energía/entropía/exergía
Nivel 3: Análisis de ciclo completo (82 preguntas) — Rankine, Brayton, turbinas de gas de ciclo combinado

La verdad de referencia proviene de CoolProp (IAPWS-IF97). No hay opción múltiple: los modelos deben producir valores numéricos exactos.

1. Claude Opus 4.6: Nivel 1: 96.4%, Nivel 2: 92.1%, Nivel 3: 93.6%, Compuesto: 94.1%
2. GPT-5.4: Nivel 1: 97.8%, Nivel 2: 90.8%, Nivel 3: 89.7%, Compuesto: 93.1%
3. Gemini 3.1 Pro: Nivel 1: 97.9%, Nivel 2: 90.8%, Nivel 3: 87.5%, Compuesto: 92.5%
4. DeepSeek-R1: Nivel 1: 90.5%, Nivel 2: 89.2%, Nivel 3: 81.0%, Compuesto: 87.4%
5. Grok 4: Nivel 1: 91.8%, Nivel 2: 87.9%, Nivel 3: 80.4%, Compuesto: 87.3%
6. MiniMax M2.5: Nivel 1: 85.2%, Nivel 2: 76.2%, Nivel 3: 52.7%, Compuesto: 73.0%

Los rankings cambian entre niveles: Gemini lidera el Nivel 1 (97.9%) pero cae al #3 en el Nivel 3 (87.5%). Opus es #3 en consultas pero #1 en análisis de ciclos, mostrando que memorizar tablas de vapor ≠ razonamiento.
El agua supercrítica rompe todo: diferencia de 44.5 puntos porcentuales. Los modelos memorizan tablas de libros de texto pero no pueden manejar regiones no lineales cerca del punto crítico. Un modelo dio h = 1,887 kJ/kg donde el valor correcto es 2,586 kJ/kg — un error del 27%.
R-134a es el punto ciego: Todos los modelos caen al 44–63% en problemas de refrigerante vs 75–98% en agua, mostrando sesgo en los datos de entrenamiento.
La consistencia entre ejecuciones varía 10×: GPT-5.4 σ = ±0.1% en Nivel 3 vs DeepSeek-R1 σ = ±2.5% en Nivel 2.

📖 Leer la fuente completa: r/LocalLLaMA