ThermoQA: 열역학 공학 문제 293개 계산 문제로 LLM 성능을 평가하는 공개 벤치마크

✍️ OpenClawRadar📅 게시일: March 21, 2026🔗 Source

ThermoQA: 열역학 공학 문제 293개 계산 문제로 LLM 성능을 평가하는 공개 벤치마크

Ad

ThermoQA 벤치마크 개요

ThermoQA는 3단계에 걸친 293개의 자유형 계산 문제로 구성된 공학 열역학용 오픈 벤치마크입니다:

1단계: 물성치 조회 (110개 질문) — 예: "5 MPa, 400°C에서 물의 엔탈피는 얼마인가?"
2단계: 구성요소 분석 (101개 질문) — 터빈, 압축기, 열교환기에 대한 에너지/엔트로피/엑서지 계산
3단계: 전체 사이클 분석 (82개 질문) — 랭킨, 브레이튼, 복합 사이클 가스 터빈

정답은 CoolProp(IAPWS-IF97)에서 제공됩니다. 객관식이 아닌 — 모델은 정확한 수치를 생성해야 합니다.

리더보드 결과 (3회 실행 평균)

1. Claude Opus 4.6: 1단계: 96.4%, 2단계: 92.1%, 3단계: 93.6%, 종합: 94.1%
2. GPT-5.4: 1단계: 97.8%, 2단계: 90.8%, 3단계: 89.7%, 종합: 93.1%
3. Gemini 3.1 Pro: 1단계: 97.9%, 2단계: 90.8%, 3단계: 87.5%, 종합: 92.5%
4. DeepSeek-R1: 1단계: 90.5%, 2단계: 89.2%, 3단계: 81.0%, 종합: 87.4%
5. Grok 4: 1단계: 91.8%, 2단계: 87.9%, 3단계: 80.4%, 종합: 87.3%
6. MiniMax M2.5: 1단계: 85.2%, 2단계: 76.2%, 3단계: 52.7%, 종합: 73.0%

Ad

주요 발견 사항

단계별 순위 변동: Gemini는 1단계(97.9%)에서 선두지만 3단계(87.5%)에서는 3위로 하락합니다. Opus는 조회에서 3위지만 사이클 분석에서는 1위로, 증기표 암기 ≠ 추론 능력을 보여줍니다.
초임계 물이 모든 것을 깨뜨림: 44.5% 포인트 차이. 모델들은 교과서 표를 암기하지만 임계점 근처의 비선형 영역을 처리하지 못합니다. 한 모델은 정답이 2,586 kJ/kg인데 h = 1,887 kJ/kg을 제시했으며 — 27% 오류입니다.
R-134a는 맹점: 모든 모델이 냉매 문제에서 44–63%로 떨어지는 반면 물 문제에서는 75–98%를 기록하며, 훈련 데이터 편향을 보여줍니다.
실행 간 일관성 10배 차이: GPT-5.4 σ = ±0.1%(3단계) 대 DeepSeek-R1 σ = ±2.5%(2단계).

오픈소스 리소스

데이터셋: https://huggingface.co/datasets/olivenet/thermoqa
코드: https://github.com/olivenet-iot/ThermoQA

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

클로드 코드는 푸시-투-톡 기능을 갖춘 음성 입력을 추가합니다.

클로드 코드는 푸시-투-톡 기능을 갖춘 음성 입력을 추가합니다.

클로드 코드가 약 5%의 사용자에게 음성 모드를 롤아웃하고 있으며, 스페이스바를 누르고 있으면 푸시-투-톡 방식으로 활성화됩니다. 음성 전사 토큰은 속도 제한에 포함되지 않으며 추가 비용 없이 이용할 수 있습니다.

Mar 7, 2026, 02:30 PM UTC

Tinfoil의 Modelwrap 기술로 모델 신원 증명하기

Tinfoil의 Modelwrap 기술로 모델 신원 증명하기

Tinfoil의 Modelwrap은 암호화된 커밋을 통해 추론 제공자가 주장하는 정확한 모델 가중치를 제공하도록 보장하며, 이를 보안 엔클레이브로 검증합니다.

Feb 21, 2026, 11:45 PM UTC

클로드 AI, 대규모 장애 발생: 웹 UI 먹통, API 오류 증가

클로드 AI, 대규모 장애 발생: 웹 UI 먹통, API 오류 증가

Claude.ai를 사용할 수 없으며, 2025년 4월 28일 19:15 UTC 기준으로 API에서 높은 오류율이 발생하고 있습니다. 공식 상태 페이지에서 진행 중인 사고를 확인했습니다.

Apr 28, 2026, 08:21 PM UTC

Claude Code v2.1.160: 셸 설정, acceptEdits 파일 보호를 위한 안전 프롬프트 및 수십 건의 버그 수정에 대한 안전 프롬프트

Claude Code v2.1.160: 셸 설정, acceptEdits 파일 보호를 위한 안전 프롬프트 및 수십 건의 버그 수정에 대한 안전 프롬프트

Anthropic이 Claude Code v2.1.160을 출시했습니다. acceptEdits 모드에서 셸 시작 파일과 빌드 도구 설정에 쓰기 전 안전 프롬프트를 추가하고, Windows 클립보드 지원을 개선했으며, 세션 기록 손실을 수정했습니다.

Jun 2, 2026, 12:15 PM UTC