RTX 5000 Pro 48GB로 Qwen3.6-27B 4400 tok/s 달성

한 개발자가 RTX 5000 Pro 48GB(세금 포함 $4300)를 Mac Studio와 비교하여 모험을 감행했고, 그 결과는 도약을 정당화했습니다: Qwen3.6-27B-FP8 및 전체 정밀도 BF16 KV 캐시를 사용하여 프롬프트 처리(PP)에서 최대 4400 토큰/초, 텍스트 생성(TG)에서 50–80 tok/s를 달성했습니다.

하드웨어 및 비용 분석

GPU 비용: $4300 (세금 포함)
총 조립 비용: $5600 (64GB RAM 포함)
컨텍스트 제한: 전체 정밀도(BF16 KV 캐시)에서 200K 토큰

성능 벤치마크

프롬프트 처리: 4400 tok/s
텍스트 생성: 매우 큰 프롬프트의 경우 50–60 tok/s, 작은 프롬프트의 경우 최대 80 tok/s
모델: 전체 정밀도 캐시를 사용한 Qwen3.6-27B-FP8
전력 소모: 듀얼 RTX 5090 설정의 약 절반

주요 관찰 사항

사용자는 사전 경험 없이 PC를 조립했으며, Claude Code에 의존했습니다(주간 Claude Code Max 한도의 50%를 vLLM/Linux 설정에 소모). BF16 캐시를 사용한 Qwen3.6-27B-FP8의 정확한 vLLM 설정을 설명한 Reddit 게시물이 주요 참고 자료였습니다. 작성자는 두 개의 RTX 5090이 성능은 더 좋지만 비용, 소음 및 전력 소모가 훨씬 더 크다고 언급합니다.

📖 전체 출처: r/LocalLLaMA

RTX 5000 PRO 48GB, Qwen3.6-27B용 4400 tok/s 정밀 캐싱 제공

하드웨어 및 비용 분석

성능 벤치마크

주요 관찰 사항

👀 See Also

4개월 만에 $950 MRR 달성, 클로드 코드 인텔용 MCP 서버 구축

AI 구독 가격 폭락: 기업 청구서가 10배로 늘어날 이유

EFF: 트럼프 행정부, 자율 무기 작업 거부한 Anthropic에 보복

개발자가 Cursor Composer 2와 Kimi 2.6에서 Qwen3.6:35b-a3b로 엔터프라이즈 워크로드 전환