ThermoQA: Punto de Referencia Abierto para Ingeniería Termodinámica Evalúa Modelos de Lenguaje en 293 Problemas de Cálculo

✍️ OpenClawRadar📅 Publicado: 21 de marzo de 2026🔗 Source
ThermoQA: Punto de Referencia Abierto para Ingeniería Termodinámica Evalúa Modelos de Lenguaje en 293 Problemas de Cálculo
Ad

Resumen del Punto de Referencia ThermoQA

ThermoQA es un punto de referencia abierto para termodinámica de ingeniería con 293 problemas de cálculo de respuesta abierta en tres niveles:

  • Nivel 1: Consultas de propiedades (110 preguntas) — Ejemplo: "¿cuál es la entalpía del agua a 5 MPa, 400°C?"
  • Nivel 2: Análisis de componentes (101 preguntas) — Turbinas, compresores, intercambiadores de calor con cálculos de energía/entropía/exergía
  • Nivel 3: Análisis de ciclo completo (82 preguntas) — Rankine, Brayton, turbinas de gas de ciclo combinado

La verdad de referencia proviene de CoolProp (IAPWS-IF97). No hay opción múltiple: los modelos deben producir valores numéricos exactos.

Resultados del Ranking (media de 3 ejecuciones)

  • 1. Claude Opus 4.6: Nivel 1: 96.4%, Nivel 2: 92.1%, Nivel 3: 93.6%, Compuesto: 94.1%
  • 2. GPT-5.4: Nivel 1: 97.8%, Nivel 2: 90.8%, Nivel 3: 89.7%, Compuesto: 93.1%
  • 3. Gemini 3.1 Pro: Nivel 1: 97.9%, Nivel 2: 90.8%, Nivel 3: 87.5%, Compuesto: 92.5%
  • 4. DeepSeek-R1: Nivel 1: 90.5%, Nivel 2: 89.2%, Nivel 3: 81.0%, Compuesto: 87.4%
  • 5. Grok 4: Nivel 1: 91.8%, Nivel 2: 87.9%, Nivel 3: 80.4%, Compuesto: 87.3%
  • 6. MiniMax M2.5: Nivel 1: 85.2%, Nivel 2: 76.2%, Nivel 3: 52.7%, Compuesto: 73.0%
Ad

Hallazgos Clave

  • Los rankings cambian entre niveles: Gemini lidera el Nivel 1 (97.9%) pero cae al #3 en el Nivel 3 (87.5%). Opus es #3 en consultas pero #1 en análisis de ciclos, mostrando que memorizar tablas de vapor ≠ razonamiento.
  • El agua supercrítica rompe todo: diferencia de 44.5 puntos porcentuales. Los modelos memorizan tablas de libros de texto pero no pueden manejar regiones no lineales cerca del punto crítico. Un modelo dio h = 1,887 kJ/kg donde el valor correcto es 2,586 kJ/kg — un error del 27%.
  • R-134a es el punto ciego: Todos los modelos caen al 44–63% en problemas de refrigerante vs 75–98% en agua, mostrando sesgo en los datos de entrenamiento.
  • La consistencia entre ejecuciones varía 10×: GPT-5.4 σ = ±0.1% en Nivel 3 vs DeepSeek-R1 σ = ±2.5% en Nivel 2.

Recursos de Código Abierto

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Informe de Stanford Muestra que Expertos en IA y el Público Tienen Opiniones Divergentes sobre el Impacto de la IA
Noticias

Informe de Stanford Muestra que Expertos en IA y el Público Tienen Opiniones Divergentes sobre el Impacto de la IA

El informe anual de la industria de IA de Stanford revela brechas significativas entre el optimismo de los expertos en IA y la ansiedad del público, con los expertos enfocados en los riesgos de la AGI mientras el público se preocupa por los empleos, la atención médica y los costos de servicios públicos.

OpenClawRadar
Diagnóstico de Desviación Operacional y Amnesia de Tareas en OpenClaw con Gemini 2.5 Flash en Proxmox.
Noticias

Diagnóstico de Desviación Operacional y Amnesia de Tareas en OpenClaw con Gemini 2.5 Flash en Proxmox.

Los usuarios de OpenClaw informan sobre problemas con flujos de trabajo persistentes en una VM de Proxmox, citando deriva operativa y amnesia de tareas. A pesar de un rendimiento estable en tareas únicas, el modelo Flash Gemini 2.5 tiene dificultades con la automatización y la memoria en esta configuración.

OpenClawRadar
Nemotron 3 4B rinde menos que Qwen 3.5 4B en puntos de referencia exigentes.
Noticias

Nemotron 3 4B rinde menos que Qwen 3.5 4B en puntos de referencia exigentes.

Un usuario de Reddit probó Nemotron 3 4B Q8 contra Qwen 3.5 4B Q8 en tareas complejas de matemáticas y programación, encontrando que Nemotron no logró producir razonamientos correctos y salidas estructuradas, mientras que Qwen pasó todas las pruebas.

OpenClawRadar
Evolución de la Arquitectura de Caché KV: Desde GPT-2 hasta Mamba
Noticias

Evolución de la Arquitectura de Caché KV: Desde GPT-2 hasta Mamba

El análisis de los costos de memoria de la caché KV muestra que GPT-2 utilizaba 300 KiB/token, Llama 3 lo redujo a 128 KiB/token con atención de consultas agrupadas, y DeepSeek V3 logró 68.6 KiB/token con atención latente multi-cabezal. Mamba/SSMs eliminan por completo la caché KV mediante estados ocultos de tamaño fijo.

OpenClawRadar