RTX 3090 Qwen 추론 디코딩 벤치마크: 236% 속도 향상

하드웨어 및 설정

개발자는 RTX 3090 24GB, Ryzen 7600X, 32GB RAM, WSL2 Ubuntu를 사용했습니다. Windows의 Ollama에서 WSL Linux의 llama.cpp로 옮겨 추측 디코딩을 적용했으며, 이는 고객 조회, 견서 서식 지정, 장비 연구, 지저분한 작업 메모 파싱을 처리하는 내부 AI 플랫폼을 위한 것이었습니다.

테스트 방법론

Qwen2.5, Qwen3, Qwen3.5 계열의 16개 GGUF 모델을 테스트했으며, 24GB VRAM에 맞는 모든 타겟+드래프트 조합, 세대 간 드래프트 페어링(Qwen2.5 드래프트를 Qwen3 타겟에 사용 및 그 반대), 모든 조합에서 VRAM을 모니터링하여 CPU 오프로딩을 확인했습니다. 품질 평가는 실제 HVAC 업무 프롬프트를 사용해 SQL 생성, 견서 서식 지정, 지저분한 현장 메모 파싱, 장비 호환성 추론을 테스트했습니다. 속도 스윕에는 draftbench와 llama-throughput-lab을 사용했으며, Claude Code로 자동화하여 밤새 진행했습니다.

최고 속도 결과

Qwen3-8B Q8_0 + Qwen3-1.7B Q4_K_M: 279.9 토큰/초 (+236% 속도 향상, 13.6 GB VRAM)
Qwen2.5-7B Q4_K_M + Qwen2.5-0.5B Q8_0: 205.4 토큰/초 (+50% 속도 향상, ~6 GB VRAM)
Qwen3-8B Q8_0 + Qwen3-0.6B Q4_0: 190.5 토큰/초 (+129% 속도 향상, 12.9 GB VRAM)
Qwen3-14B Q4_K_M + Qwen3-0.6B Q4_0: 159.1 토큰/초 (+115% 속도 향상, 13.5 GB VRAM)
Qwen2.5-14B Q8_0 + Qwen2.5-0.5B Q4_K_M: 137.5 토큰/초 (+186% 속도 향상, ~16 GB VRAM)
Qwen3.5-35B-A3B Q4_K_M (기준선, 드래프트 없음): 133.6 토큰/초 (22 GB VRAM)
Qwen2.5-32B Q4_K_M + Qwen2.5-1.5B Q4_K_M: 91.0 토큰/초 (+156% 속도 향상, ~20 GB VRAM)

Qwen3-8B + 1.7B 드래프트 조합은 100% 수용률을 달성했습니다—1.7B가 8B가 생성할 내용을 정확히 예측하는 완벽한 드래프트 일치입니다.

Qwen3.5 사고 모드 문제

Qwen3.5 모델은 llama.cpp에서 기본적으로 사고 모드에 진입하여 응답 전 숨겨진 추론 토큰을 생성합니다. 이로 인해 벤치마크 결과가 불규칙해졌습니다: 0 토큰/초와 700 토큰/초가 번갈아 나타나고, TTFT가 1초와 28초 사이에서 점프했습니다. 이를 비활성화하는 데 성공한 방법은 세 가지뿐이었습니다:

--jinja + enable_thinking=false가 하드코딩된 패치된 채팅 템플릿 ✅
Raw /completion 엔드포인트 (채팅 템플릿 완전 우회) ✅
그 외 모든 방법 (시스템 프롬프트, /no_think 접미사, 온도 트릭) ❌

llama.cpp에서 Qwen3.5를 실행한다면 패치된 템플릿이 필요하며, 그렇지 않으면 쓰레기 같은 벤치마크 결과를 얻게 됩니다.

품질 평가 결과

모호한 고객 요청, 복잡한 견서, 오타가 있는 지저분한 메모, 장비 호환성 추론을 테스트하는 네 가지 어려운 HVAC 특화 프롬프트를 실행했습니다. 주요 결과:

모든 모델이 가격 공식 수학 문제를 실패했습니다: 8B, 14B, 32B, 35B—어떤 모델도 $4,811 / (1 - 0.47) = $9,077를 올바르게 계산하지 못했습니다. LLM은 비즈니스 수학을 신뢰할 수 있게 처리할 수 없습니다—수식은 코드에 넣으세요.
8B는 4개 중 3개의 어려운 프롬프트를 처리했습니다—모호한 요청, 지저분한 메모, 일상 업무에 좋은 성능을 보였지만, 기술적 장비 추론에서는 실패했습니다.
35B-A3B는 실제 HVAC 도메인 지식을 가진 유일한 모델이었습니다—단열되지 않은 시카고 차고에 맞는 미니 스플릿을 올바르게 규정했고, 추운 기후에는 Hyper-Heat 시리즈를 추천해야 한다는 것을 알았으며, 단일 존에는 분기 박스가 필요 없다고 올바르게 말했습니다—하지만 지저분한 메모에서 모델 번호를 놓쳤고 수학 문제도 실패했습니다.
크기가 항상 더 좋은 것은 아닙니다: Qwen3-14B Q4_K_M (159 토큰/초)은 대부분의 프롬프트에서 8B보다 성능이 떨어졌습니다. 32B는 400 평방피트 차고에 5톤 장치를 추천했습니다.
Qwen2.5-7B는 모든 메모 파싱 테스트에서 환각을 일으켰습니다—일관되게 세부사항을 지어냈습니다.

📖 Read the full source: r/LocalLLaMA