ThermoQA: Benchmark Aberto para Testar LLMs em 293 Problemas de Cálculo de Termodinâmica de Engenharia

✍️ OpenClawRadar📅 Publicado: March 21, 2026🔗 Source
ThermoQA: Benchmark Aberto para Testar LLMs em 293 Problemas de Cálculo de Termodinâmica de Engenharia
Ad

Visão Geral do Benchmark ThermoQA

ThermoQA é um benchmark aberto para termodinâmica de engenharia com 293 problemas de cálculo abertos em três níveis:

  • Nível 1: Consultas de propriedades (110 questões) — Exemplo: "qual é a entalpia da água a 5 MPa, 400°C?"
  • Nível 2: Análise de componentes (101 questões) — Turbinas, compressores, trocadores de calor com cálculos de energia/entropia/exergia
  • Nível 3: Análise de ciclo completo (82 questões) — Rankine, Brayton, turbinas a gás de ciclo combinado

A verdade fundamental vem do CoolProp (IAPWS-IF97). Sem múltipla escolha — os modelos devem produzir valores numéricos exatos.

Resultados do Ranking (média de 3 execuções)

  • 1. Claude Opus 4.6: Nível 1: 96,4%, Nível 2: 92,1%, Nível 3: 93,6%, Composta: 94,1%
  • 2. GPT-5.4: Nível 1: 97,8%, Nível 2: 90,8%, Nível 3: 89,7%, Composta: 93,1%
  • 3. Gemini 3.1 Pro: Nível 1: 97,9%, Nível 2: 90,8%, Nível 3: 87,5%, Composta: 92,5%
  • 4. DeepSeek-R1: Nível 1: 90,5%, Nível 2: 89,2%, Nível 3: 81,0%, Composta: 87,4%
  • 5. Grok 4: Nível 1: 91,8%, Nível 2: 87,9%, Nível 3: 80,4%, Composta: 87,3%
  • 6. MiniMax M2.5: Nível 1: 85,2%, Nível 2: 76,2%, Nível 3: 52,7%, Composta: 73,0%
Ad

Principais Descobertas

  • Os rankings mudam entre os níveis: Gemini lidera o Nível 1 (97,9%) mas cai para #3 no Nível 3 (87,5%). Opus é #3 nas consultas mas #1 na análise de ciclos, mostrando que memorizar tabelas de vapor ≠ raciocínio.
  • Água supercrítica quebra tudo: Diferença de 44,5 pontos percentuais. Os modelos memorizam tabelas de livros mas não conseguem lidar com regiões não lineares perto do ponto crítico. Um modelo deu h = 1.887 kJ/kg onde o valor correto é 2.586 kJ/kg — um erro de 27%.
  • R-134a é o ponto cego: Todos os modelos caem para 44–63% em problemas com refrigerante vs 75–98% com água, mostrando viés nos dados de treinamento.
  • A consistência entre execuções varia 10×: GPT-5.4 σ = ±0,1% no Nível 3 vs DeepSeek-R1 σ = ±2,5% no Nível 2.

Recursos de Código Aberto

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also