ThermoQA: Benchmark Aberto para Testar LLMs em 293 Problemas de Cálculo de Termodinâmica de Engenharia

Visão Geral do Benchmark ThermoQA
ThermoQA é um benchmark aberto para termodinâmica de engenharia com 293 problemas de cálculo abertos em três níveis:
- Nível 1: Consultas de propriedades (110 questões) — Exemplo: "qual é a entalpia da água a 5 MPa, 400°C?"
- Nível 2: Análise de componentes (101 questões) — Turbinas, compressores, trocadores de calor com cálculos de energia/entropia/exergia
- Nível 3: Análise de ciclo completo (82 questões) — Rankine, Brayton, turbinas a gás de ciclo combinado
A verdade fundamental vem do CoolProp (IAPWS-IF97). Sem múltipla escolha — os modelos devem produzir valores numéricos exatos.
Resultados do Ranking (média de 3 execuções)
- 1. Claude Opus 4.6: Nível 1: 96,4%, Nível 2: 92,1%, Nível 3: 93,6%, Composta: 94,1%
- 2. GPT-5.4: Nível 1: 97,8%, Nível 2: 90,8%, Nível 3: 89,7%, Composta: 93,1%
- 3. Gemini 3.1 Pro: Nível 1: 97,9%, Nível 2: 90,8%, Nível 3: 87,5%, Composta: 92,5%
- 4. DeepSeek-R1: Nível 1: 90,5%, Nível 2: 89,2%, Nível 3: 81,0%, Composta: 87,4%
- 5. Grok 4: Nível 1: 91,8%, Nível 2: 87,9%, Nível 3: 80,4%, Composta: 87,3%
- 6. MiniMax M2.5: Nível 1: 85,2%, Nível 2: 76,2%, Nível 3: 52,7%, Composta: 73,0%
Principais Descobertas
- Os rankings mudam entre os níveis: Gemini lidera o Nível 1 (97,9%) mas cai para #3 no Nível 3 (87,5%). Opus é #3 nas consultas mas #1 na análise de ciclos, mostrando que memorizar tabelas de vapor ≠ raciocínio.
- Água supercrítica quebra tudo: Diferença de 44,5 pontos percentuais. Os modelos memorizam tabelas de livros mas não conseguem lidar com regiões não lineares perto do ponto crítico. Um modelo deu h = 1.887 kJ/kg onde o valor correto é 2.586 kJ/kg — um erro de 27%.
- R-134a é o ponto cego: Todos os modelos caem para 44–63% em problemas com refrigerante vs 75–98% com água, mostrando viés nos dados de treinamento.
- A consistência entre execuções varia 10×: GPT-5.4 σ = ±0,1% no Nível 3 vs DeepSeek-R1 σ = ±2,5% no Nível 2.
Recursos de Código Aberto
- Conjunto de dados: https://huggingface.co/datasets/olivenet/thermoqa
- Código: https://github.com/olivenet-iot/ThermoQA
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

A precisão do Claude Opus 4.6 cai no teste de alucinação BridgeBench
Claude Opus 4.6 mostra uma queda significativa na precisão no teste de alucinação BridgeBench, caindo de 83% para 68%, de acordo com uma postagem no Twitter da BridgeMind AI.

Comparativo de Inferência M5 Max vs M3 Max para Modelos Qwen no oMLX
Benchmarks comparando MacBook Pros M5 Max e M3 Max executando modelos Qwen 3.5 via oMLX v0.2.23 mostram o M5 Max entregando geração de tokens 1,4-1,7x mais rápida e preenchimento prévio até 4x mais rápido em contextos longos.

OpenClaw Lança BotsChat: Uma Ferramenta de Chat Nativa que Revoluciona a Comunicação entre Agentes
A OpenClaw apresenta o BotsChat, uma nova ferramenta de chat nativa projetada para melhorar a comunicação entre agentes de codificação de IA. Descubra como essa ferramenta pode otimizar seus processos de automação.

OpenClaw 2026.3.13 regressão causa relatórios de status inalcançáveis falsos
A versão 2026.3.13 do OpenClaw introduziu uma regressão de diagnóstico onde comandos de status relatam falsamente gateways inacessíveis, apesar das sondas RPC funcionarem corretamente. Reverter para a versão 2026.3.12 resolve o problema.