RTX 3090에서 Qwen 모델을 활용한 HVAC 비즈니스용 추론 디코딩 벤치마크

✍️ OpenClawRadar📅 게시일: March 28, 2026🔗 Source
RTX 3090에서 Qwen 모델을 활용한 HVAC 비즈니스용 추론 디코딩 벤치마크
Ad

하드웨어 및 설정

개발자는 RTX 3090 24GB, Ryzen 7600X, 32GB RAM, WSL2 Ubuntu를 사용했습니다. Windows의 Ollama에서 WSL Linux의 llama.cpp로 옮겨 추측 디코딩을 적용했으며, 이는 고객 조회, 견서 서식 지정, 장비 연구, 지저분한 작업 메모 파싱을 처리하는 내부 AI 플랫폼을 위한 것이었습니다.

테스트 방법론

Qwen2.5, Qwen3, Qwen3.5 계열의 16개 GGUF 모델을 테스트했으며, 24GB VRAM에 맞는 모든 타겟+드래프트 조합, 세대 간 드래프트 페어링(Qwen2.5 드래프트를 Qwen3 타겟에 사용 및 그 반대), 모든 조합에서 VRAM을 모니터링하여 CPU 오프로딩을 확인했습니다. 품질 평가는 실제 HVAC 업무 프롬프트를 사용해 SQL 생성, 견서 서식 지정, 지저분한 현장 메모 파싱, 장비 호환성 추론을 테스트했습니다. 속도 스윕에는 draftbench와 llama-throughput-lab을 사용했으며, Claude Code로 자동화하여 밤새 진행했습니다.

최고 속도 결과

  • Qwen3-8B Q8_0 + Qwen3-1.7B Q4_K_M: 279.9 토큰/초 (+236% 속도 향상, 13.6 GB VRAM)
  • Qwen2.5-7B Q4_K_M + Qwen2.5-0.5B Q8_0: 205.4 토큰/초 (+50% 속도 향상, ~6 GB VRAM)
  • Qwen3-8B Q8_0 + Qwen3-0.6B Q4_0: 190.5 토큰/초 (+129% 속도 향상, 12.9 GB VRAM)
  • Qwen3-14B Q4_K_M + Qwen3-0.6B Q4_0: 159.1 토큰/초 (+115% 속도 향상, 13.5 GB VRAM)
  • Qwen2.5-14B Q8_0 + Qwen2.5-0.5B Q4_K_M: 137.5 토큰/초 (+186% 속도 향상, ~16 GB VRAM)
  • Qwen3.5-35B-A3B Q4_K_M (기준선, 드래프트 없음): 133.6 토큰/초 (22 GB VRAM)
  • Qwen2.5-32B Q4_K_M + Qwen2.5-1.5B Q4_K_M: 91.0 토큰/초 (+156% 속도 향상, ~20 GB VRAM)

Qwen3-8B + 1.7B 드래프트 조합은 100% 수용률을 달성했습니다—1.7B가 8B가 생성할 내용을 정확히 예측하는 완벽한 드래프트 일치입니다.

Ad

Qwen3.5 사고 모드 문제

Qwen3.5 모델은 llama.cpp에서 기본적으로 사고 모드에 진입하여 응답 전 숨겨진 추론 토큰을 생성합니다. 이로 인해 벤치마크 결과가 불규칙해졌습니다: 0 토큰/초와 700 토큰/초가 번갈아 나타나고, TTFT가 1초와 28초 사이에서 점프했습니다. 이를 비활성화하는 데 성공한 방법은 세 가지뿐이었습니다:

  • --jinja + enable_thinking=false가 하드코딩된 패치된 채팅 템플릿 ✅
  • Raw /completion 엔드포인트 (채팅 템플릿 완전 우회) ✅
  • 그 외 모든 방법 (시스템 프롬프트, /no_think 접미사, 온도 트릭) ❌

llama.cpp에서 Qwen3.5를 실행한다면 패치된 템플릿이 필요하며, 그렇지 않으면 쓰레기 같은 벤치마크 결과를 얻게 됩니다.

품질 평가 결과

모호한 고객 요청, 복잡한 견서, 오타가 있는 지저분한 메모, 장비 호환성 추론을 테스트하는 네 가지 어려운 HVAC 특화 프롬프트를 실행했습니다. 주요 결과:

  • 모든 모델이 가격 공식 수학 문제를 실패했습니다: 8B, 14B, 32B, 35B—어떤 모델도 $4,811 / (1 - 0.47) = $9,077를 올바르게 계산하지 못했습니다. LLM은 비즈니스 수학을 신뢰할 수 있게 처리할 수 없습니다—수식은 코드에 넣으세요.
  • 8B는 4개 중 3개의 어려운 프롬프트를 처리했습니다—모호한 요청, 지저분한 메모, 일상 업무에 좋은 성능을 보였지만, 기술적 장비 추론에서는 실패했습니다.
  • 35B-A3B는 실제 HVAC 도메인 지식을 가진 유일한 모델이었습니다—단열되지 않은 시카고 차고에 맞는 미니 스플릿을 올바르게 규정했고, 추운 기후에는 Hyper-Heat 시리즈를 추천해야 한다는 것을 알았으며, 단일 존에는 분기 박스가 필요 없다고 올바르게 말했습니다—하지만 지저분한 메모에서 모델 번호를 놓쳤고 수학 문제도 실패했습니다.
  • 크기가 항상 더 좋은 것은 아닙니다: Qwen3-14B Q4_K_M (159 토큰/초)은 대부분의 프롬프트에서 8B보다 성능이 떨어졌습니다. 32B는 400 평방피트 차고에 5톤 장치를 추천했습니다.
  • Qwen2.5-7B는 모든 메모 파싱 테스트에서 환각을 일으켰습니다—일관되게 세부사항을 지어냈습니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

실용적인 AI 에이전트 설정: 이발소, 심리 상담소, 법률 사무소, 콘텐츠 크리에이터, 게임 개발자를 위한
Use Cases

실용적인 AI 에이전트 설정: 이발소, 심리 상담소, 법률 사무소, 콘텐츠 크리에이터, 게임 개발자를 위한

한 개발자가 5가지 소규모 비즈니스 유형별로 구체적인 AI 에이전트 구현 사례를 공유하며, 자동화된 워크플로우와 절약된 시간을 상세히 설명합니다. 각 설정은 공유 메모리 아키텍처를 갖춘 여러 전문 에이전트를 활용합니다.

OpenClawRadar
클로드와 초능력으로 연 2만 달러 규모의 엔터프라이즈 물류 플랫폼을 바이브 코딩하다
Use Cases

클로드와 초능력으로 연 2만 달러 규모의 엔터프라이즈 물류 플랫폼을 바이브 코딩하다

TRMNL이 ShipHero를 Claude와 Superpowers로 한 달 안에 교체하여 UPS, FedEx, DHL, USPS 연동이 포함된 맞춤형 주문 처리 시스템을 $100의 토큰 비용으로 구축했습니다.

OpenClawRadar
프로덕션 AI 코딩 에이전트 실패 사례: 일상 사용에서 발견된 실제 패턴
Use Cases

프로덕션 AI 코딩 에이전트 실패 사례: 일상 사용에서 발견된 실제 패턴

클로드 코드를 주요 개발 도구로 2개월간 사용한 개발자가 프로덕션 사용 중 발견한 특정 실패 패턴을 보고했습니다. 여기에는 클라이언트 재무 데이터를 공개 URL에 배포한 사례와, 12건의 실패 중 7건이 자동화 시스템이 아닌 수동으로 발견된 사례가 포함됩니다.

OpenClawRadar
비전문가 사용자의 OpenClaw 경험: 자동화 혜택을 가리는 설정의 어려움
Use Cases

비전문가 사용자의 OpenClaw 경험: 자동화 혜택을 가리는 설정의 어려움

한 명의 비기술적 솔로 컨설턴트가 반복 작업을 자동화하기 위해 OpenClaw를 테스트했지만, VPS 관리, Docker 배포, 터미널 명령어 디버깅이 필요한 설정 과정을 겪었습니다. 에이전트의 Gmail 통합과 텍스트 입력 흐름은 잘 작동했지만, API 제한과 기술적 복잡성으로 인해 작업이 제거되기보다는 이동하게 되었습니다.

OpenClawRadar