ThermoQA: 열역학 공학 문제 293개 계산 문제로 LLM 성능을 평가하는 공개 벤치마크

✍️ OpenClawRadar📅 게시일: March 21, 2026🔗 Source
ThermoQA: 열역학 공학 문제 293개 계산 문제로 LLM 성능을 평가하는 공개 벤치마크
Ad

ThermoQA 벤치마크 개요

ThermoQA는 3단계에 걸친 293개의 자유형 계산 문제로 구성된 공학 열역학용 오픈 벤치마크입니다:

  • 1단계: 물성치 조회 (110개 질문) — 예: "5 MPa, 400°C에서 물의 엔탈피는 얼마인가?"
  • 2단계: 구성요소 분석 (101개 질문) — 터빈, 압축기, 열교환기에 대한 에너지/엔트로피/엑서지 계산
  • 3단계: 전체 사이클 분석 (82개 질문) — 랭킨, 브레이튼, 복합 사이클 가스 터빈

정답은 CoolProp(IAPWS-IF97)에서 제공됩니다. 객관식이 아닌 — 모델은 정확한 수치를 생성해야 합니다.

리더보드 결과 (3회 실행 평균)

  • 1. Claude Opus 4.6: 1단계: 96.4%, 2단계: 92.1%, 3단계: 93.6%, 종합: 94.1%
  • 2. GPT-5.4: 1단계: 97.8%, 2단계: 90.8%, 3단계: 89.7%, 종합: 93.1%
  • 3. Gemini 3.1 Pro: 1단계: 97.9%, 2단계: 90.8%, 3단계: 87.5%, 종합: 92.5%
  • 4. DeepSeek-R1: 1단계: 90.5%, 2단계: 89.2%, 3단계: 81.0%, 종합: 87.4%
  • 5. Grok 4: 1단계: 91.8%, 2단계: 87.9%, 3단계: 80.4%, 종합: 87.3%
  • 6. MiniMax M2.5: 1단계: 85.2%, 2단계: 76.2%, 3단계: 52.7%, 종합: 73.0%
Ad

주요 발견 사항

  • 단계별 순위 변동: Gemini는 1단계(97.9%)에서 선두지만 3단계(87.5%)에서는 3위로 하락합니다. Opus는 조회에서 3위지만 사이클 분석에서는 1위로, 증기표 암기 ≠ 추론 능력을 보여줍니다.
  • 초임계 물이 모든 것을 깨뜨림: 44.5% 포인트 차이. 모델들은 교과서 표를 암기하지만 임계점 근처의 비선형 영역을 처리하지 못합니다. 한 모델은 정답이 2,586 kJ/kg인데 h = 1,887 kJ/kg을 제시했으며 — 27% 오류입니다.
  • R-134a는 맹점: 모든 모델이 냉매 문제에서 44–63%로 떨어지는 반면 물 문제에서는 75–98%를 기록하며, 훈련 데이터 편향을 보여줍니다.
  • 실행 간 일관성 10배 차이: GPT-5.4 σ = ±0.1%(3단계) 대 DeepSeek-R1 σ = ±2.5%(2단계).

오픈소스 리소스

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Claude Code v2.1.83은 관리형 설정 조각, 대화 기록 검색 및 보안 개선 사항을 추가합니다.
News

Claude Code v2.1.83은 관리형 설정 조각, 대화 기록 검색 및 보안 개선 사항을 추가합니다.

Claude Code v2.1.83는 팀 정책 조각을 위한 managed-settings.d/ 디렉터리, / 및 n/N 탐색 기능이 있는 대화 기록 검색, 하위 프로세스 환경에서 자격 증명을 제거하는 CLAUDE_CODE_SUBPROCESS_ENV_SCRUB=1 기능을 도입했습니다. 이번 릴리스에는 CwdChanged/FileChanged 훅, sandbox.failIfUnavailable 설정, macOS 종료 시 멈춤 현상, UI 정지, 메모리 누수 수정도 포함되어 있습니다.

OpenClawRadar
미니맥스 M2.7 모델, AI 코딩 에이전트로서 강력한 성능 보여줘
News

미니맥스 M2.7 모델, AI 코딩 에이전트로서 강력한 성능 보여줘

한 개발자가 MiniMax M2.7을 주요 AI 코딩 에이전트로 테스트한 결과, 속도와 도구 작업에서 GPT 5.4와 Gemini 3.1 Pro를 능가하는 성능을 보였으며, SWE-Pro에서 56.22%, Terminal Bench 2에서 57.0%의 벤치마크 점수를 기록했습니다.

OpenClawRadar
리눅스 커널 관리자가 AI 생성 버그 보고서 품질의 갑작스러운 변화를 보고하다
News

리눅스 커널 관리자가 AI 생성 버그 보고서 품질의 갑작스러운 변화를 보고하다

그렉 크로아-하트만은 약 한 달 전에 리눅스 커널에 대한 AI 생성 버그 리포트가 'AI 쓰레기'에서 합법적인 리포트로 전환되었다고 말하며, 다양한 프로젝트의 오픈 소스 보안 팀들도 동일한 변화를 목격하고 있다고 전했습니다. 커널 팀은 Sashiko와 같은 리뷰 자동화 도구를 활용하여 증가하는 리포트를 처리하고 있습니다.

OpenClawRadar
PeerZero: 신뢰도 기반 인센티브를 통한 AI 에이전트 동료 검토
News

PeerZero: 신뢰도 기반 인센티브를 통한 AI 에이전트 동료 검토

PeerZero는 AI 에이전트가 연구 논문을 제출하고, 서로의 작업을 검토하며, 현상금 시스템을 통해 정확성을 입증함으로써 신뢰도를 걸어야 하는 플랫폼입니다. 에이전트는 검토 정확도에 따라 신뢰도 점수를 얻거나 잃으며, 독립적인 사고를 보상하고 집단 사고를 처벌하는 '입증된 아웃라이어' 메커니즘을 통해 운영됩니다.

OpenClawRadar