Qwen3.6 27B FP8, RTX 5000 PRO 48GB에서 BF16 KV 캐시 20만 토큰을 80 TPS로 실행

✍️ OpenClawRadar📅 게시일: May 5, 2026🔗 Source
Qwen3.6 27B FP8, RTX 5000 PRO 48GB에서 BF16 KV 캐시 20만 토큰을 80 TPS로 실행
Ad

r/LocalLLaMA의 Reddit 사용자가 단일 RTX 5000 PRO 48GB GPU에서 Qwen3.6-27B-FP8을 BF16 KV 캐시(200k 토큰)로 실행하여 60–90 TPS를 달성했다고 보고했습니다. 이 설정은 vLLM 0.20.1, CUDA 12.9, Qwen의 공식 FP8 양자화를 사용하며, 멀티모달 및 MTP 추측 디코딩을 지원합니다.

설정 세부 사항

환경은 FlashInfer FP8 MoE, FP8 Marlin 및 비동기 스케줄링을 사용합니다. 주요 환경 변수 및 실행 명령:

export VLLM_USE_FLASHINFER_MOE_FP8=1
export VLLM_TEST_FORCE_FP8_MARLIN=1
export VLLM_SLEEP_WHEN_IDLE=1
export VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1
export VLLM_LOG_STATS_INTERVAL=2
export VLLM_WORKER_MULTIPROC_METHOD=spawn
export SAFETENSORS_FAST_GPU=1
export CUDA_DEVICE_ORDER=PCI_BUS_ID
export TORCH_FLOAT32_MATMUL_PRECISION=high
export PYTORCH_ALLOC_CONF=expandable_segments:True

vllm serve Qwen/Qwen3.6-27B-FP8
--host 0.0.0.0 --port 8080
--performance-mode interactivity
--trust-remote-code
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--reasoning-parser qwen3
--mm-encoder-tp-mode data
--mm-processor-cache-type shm
--gpu-memory-utilization 0.975
--speculative-config '{"method":"mtp","num_speculative_tokens":2}'
--compilation-config '{"cudagraph_mode": "FULL_AND_PIECEWISE", "max_cudagraph_capture_size": 16, "mode": "VLLM_COMPILE"}'
--async-scheduling
--attention-backend flashinfer
--max-model-len 196608
--kv-cache-dtype bfloat16
--enable-prefix-caching

Ad

성능 관찰

MTP=2 추측 디코딩을 통해 코드 생성 시 60–90 TPS를 생성합니다. BF16 KV 캐시는 양자화된 KV에서 발생하는 압축 문제를 피하여 긴 코딩 세션을 더 안정적으로 만듭니다. 사용자는 이 설정이 64GB 시스템 RAM과 적절한 CPU를 갖춘 단일 RTX 5000 PRO 48GB에서 실행되며, 로컬 LLM 개발을 위한 $10,000 워크스테이션의 강력한 후보라고 언급합니다.

대상 사용자

최소한의 양자화 아티팩트와 긴 컨텍스트 윈도우로 로컬에서 에이전트 기반 코딩 설정이 필요한 개발자.

📖 원문 보기: r/LocalLLaMA

Ad

👀 See Also

Anthropic, AI 제한으로 인한 국방부 블랙리스트 등재 방지를 위해 소송 제기
News

Anthropic, AI 제한으로 인한 국방부 블랙리스트 등재 방지를 위해 소송 제기

로이터 통신이 해커 뉴스에 공유한 보도에 따르면, Anthropic은 AI 사용 제한을 이유로 국방부가 회사를 블랙리스트에 올리는 것을 막기 위해 소송을 제기했습니다.

OpenClawRadar
Synthetic이 주요 가격 구조 조정과 함께 상당한 속도 제한 변경을 발표합니다.
News

Synthetic이 주요 가격 구조 조정과 함께 상당한 속도 제한 변경을 발표합니다.

Synthetic는 표준 및 프로 등급을 월 30달러의 구독 팩으로 대체하며, 팩당 5시간 동안 135개의 메시지를 제공합니다. 기존 프로 사용자는 동일한 월 60달러 요금으로 5시간당 1,250개의 메시지에서 335개의 메시지로 줄어듭니다.

OpenClawRadar
Anthropic, 모델 버전 고정 기능을 제거해 클라이언트 애플리케이션에 차질
News

Anthropic, 모델 버전 고정 기능을 제거해 클라이언트 애플리케이션에 차질

Anthropic은 claude-sonnet-4-5-20250929 모델을 지원 중단하고 사용자들을 claude-sonnet-4-6으로 강제 이전시키고 있습니다. 이 모델은 항상 최신 버전을 참조하며 특정 버전을 고정할 수 있는 방법이 없습니다. 이는 모델 버전이 변경될 때 클라이언트 애플리케이션이 예측 불가능하게 중단될 수 있음을 의미합니다.

OpenClawRadar
자기주도적 오류 기반 미세 조정, 소형 모델의 HumanEval 성능 80% 달성
News

자기주도적 오류 기반 미세 조정, 소형 모델의 HumanEval 성능 80% 달성

한 개발자가 Qwen 2.5 7B를 자체 생성한 코딩 쌍으로 훈련시켜, 인간이 작성한 훈련 데이터 없이 HumanEval에서 112/164 (+87 문제)를 달성했습니다. 이 접근법은 Llama 3.2 3B와 Qwen 3 4B에도 적용됩니다.

OpenClawRadar