로컬 Qwen3.5-27B 설정: vLLM vs llama.cpp 성능 비교

Qwen3.5-27B 성능 및 기능

Qwen3.5-27B 모델은 소스에 따르면 다양한 벤치마크에서 강력한 성능을 보입니다: MMLU-Pro: 85.3, MMLU-Redux: 93.3, C-Eval: 90.2, 종합 지능 점수: 42.1 (비교 모델 중 91%보다 우수), 코딩 지수: 34.9 (코딩 능력 상위 88%). 이 모델은 기본 262k 컨텍스트를 지원하며 1M+ 토큰까지 확장 가능한 조밀한 아키텍처를 특징으로 합니다.

백엔드 비교: llama.cpp 대 vLLM

소스는 로컬 배포를 위한 두 가지 주요 접근 방식을 비교합니다:

옵션 1: llama.cpp

장점: 낮은 리소스 사용량, 쉬운 설정, 합리적인 VRAM 사용을 위한 q4 KV 캐시 지원
단점: KV 캐시가 무작위로 초기화되는 주요 문제로 인해 세션 중간에 전체 프롬프트 재처리가 강제됩니다. MTP를 통한 추측 디코딩이 작동하지 않습니다. 아직 확실한 수정이 없는 알려진 버그입니다.

옵션 2: vLLM

장점: 안정적인 세션, KV 초기화 없음, 더 빠른 생성을 위한 MTP 추측 디코딩 지원
단점: q4 KV 지원이 없어 256k 컨텍스트에서 VRAM 급증이 발생합니다. v0.17.1에서 Qwen3.5의 도구 호출 파싱이 버그가 있으며, 오픈 GitHub PR에 수정 사항이 있지만 아직 병합되지 않았습니다. 이로 인해 잘못된 JSON 출력으로 에이전트 코딩 흐름이 중단됩니다.

권장 vLLM 구성

소스는 HF의 모델 osoleve/Qwen3.5-27B-Text-NVFP4-MTP를 사용한 안정적이고 고속 실행을 위한 특정 구성 권장사항을 제공합니다:

최적화된 성능을 위해 flashinfer cutlass 백엔드 사용
컨텍스트 창을 128k로 설정 (VRAM과 사용성 균형; 하드웨어가 허용하면 256k로 증가)
OOM 충돌을 피하기 위해 GPU 사용률을 0.82로 제한
max-num-seq를 2로 설정 (과도한 리소스 할당 없이 단일 세션 처리 가능)
속도 향상을 위해 MTP 추측 디코딩 활성화
오픈 PR의 Qwen 도구 호출 파싱 수정 사항으로 vLLM 패치 적용
Claude 코드 cli 사용 - 오픈 코드는 패치 후에도 도구 호출 파싱 문제가 나타나지 않음

성능 결과

소스에 따르면 성능은 하드웨어에 따라 다릅니다:

RTX 5090 (32GB VRAM): ~50 TPS
RTX Pro 6000 (96GB VRAM): 전체 256k 컨텍스트에서 70 TPS

📖 Read the full source: r/LocalLLaMA

로컬에서 Qwen3.5-27B 설정하기: vLLM vs llama.cpp 비교

Qwen3.5-27B 성능 및 기능

백엔드 비교: llama.cpp 대 vLLM

옵션 1: llama.cpp

옵션 2: vLLM

권장 vLLM 구성

성능 결과

👀 See Also

클로드에서 Todoist 커넥터가 제거되었으며, 사용자 지정 설정이 필요합니다.

OpenCLAW 메모리가 실제로 작동하는 방식: 에이전트 '망각' 문제 해결하기

AI를 활용해 더 느리게 더 나은 코드 작성하기: 버그 발견 워크플로우

예산 내에서 OpenClaw, ClawdBot, MoltBot 실행하기