로컬에서 Qwen3.5-27B 설정하기: vLLM vs llama.cpp 비교

✍️ OpenClawRadar📅 게시일: March 15, 2026🔗 Source
로컬에서 Qwen3.5-27B 설정하기: vLLM vs llama.cpp 비교
Ad

Qwen3.5-27B 성능 및 기능

Qwen3.5-27B 모델은 소스에 따르면 다양한 벤치마크에서 강력한 성능을 보입니다: MMLU-Pro: 85.3, MMLU-Redux: 93.3, C-Eval: 90.2, 종합 지능 점수: 42.1 (비교 모델 중 91%보다 우수), 코딩 지수: 34.9 (코딩 능력 상위 88%). 이 모델은 기본 262k 컨텍스트를 지원하며 1M+ 토큰까지 확장 가능한 조밀한 아키텍처를 특징으로 합니다.

백엔드 비교: llama.cpp 대 vLLM

소스는 로컬 배포를 위한 두 가지 주요 접근 방식을 비교합니다:

옵션 1: llama.cpp

  • 장점: 낮은 리소스 사용량, 쉬운 설정, 합리적인 VRAM 사용을 위한 q4 KV 캐시 지원
  • 단점: KV 캐시가 무작위로 초기화되는 주요 문제로 인해 세션 중간에 전체 프롬프트 재처리가 강제됩니다. MTP를 통한 추측 디코딩이 작동하지 않습니다. 아직 확실한 수정이 없는 알려진 버그입니다.

옵션 2: vLLM

  • 장점: 안정적인 세션, KV 초기화 없음, 더 빠른 생성을 위한 MTP 추측 디코딩 지원
  • 단점: q4 KV 지원이 없어 256k 컨텍스트에서 VRAM 급증이 발생합니다. v0.17.1에서 Qwen3.5의 도구 호출 파싱이 버그가 있으며, 오픈 GitHub PR에 수정 사항이 있지만 아직 병합되지 않았습니다. 이로 인해 잘못된 JSON 출력으로 에이전트 코딩 흐름이 중단됩니다.
Ad

권장 vLLM 구성

소스는 HF의 모델 osoleve/Qwen3.5-27B-Text-NVFP4-MTP를 사용한 안정적이고 고속 실행을 위한 특정 구성 권장사항을 제공합니다:

  • 최적화된 성능을 위해 flashinfer cutlass 백엔드 사용
  • 컨텍스트 창을 128k로 설정 (VRAM과 사용성 균형; 하드웨어가 허용하면 256k로 증가)
  • OOM 충돌을 피하기 위해 GPU 사용률을 0.82로 제한
  • max-num-seq를 2로 설정 (과도한 리소스 할당 없이 단일 세션 처리 가능)
  • 속도 향상을 위해 MTP 추측 디코딩 활성화
  • 오픈 PR의 Qwen 도구 호출 파싱 수정 사항으로 vLLM 패치 적용
  • Claude 코드 cli 사용 - 오픈 코드는 패치 후에도 도구 호출 파싱 문제가 나타나지 않음

성능 결과

소스에 따르면 성능은 하드웨어에 따라 다릅니다:

  • RTX 5090 (32GB VRAM): ~50 TPS
  • RTX Pro 6000 (96GB VRAM): 전체 256k 컨텍스트에서 70 TPS

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

경험에서 얻은 실용적인 다중 에이전트 시스템 아키텍처 조언
Guides

경험에서 얻은 실용적인 다중 에이전트 시스템 아키텍처 조언

한 개발자가 7개의 에이전트가 매일 실행되는 시스템을 운영한 경험을 바탕으로 다중 에이전트 AI 시스템 구축을 위한 다섯 가지 구체적인 패턴을 공유했습니다: 하나의 에이전트로 시작하기, 오케스트레이터 패턴 사용하기, JSON 파일로 공유 메모리 구현하기, 작업별로 모델 라우팅하기, 확인 루프 추가하기.

OpenClawRadar
Dispatcher Pattern을 사용하여 Claude API 비용을 95% 절감하기
Guides

Dispatcher Pattern을 사용하여 Claude API 비용을 95% 절감하기

한 개발자가 디스패처 패턴을 구현하여 Claude Max 구독에서 Claude Code CLI에 무거운 작업을 위임하고 오케스트레이션에는 최소한의 API 토큰만 사용함으로써 Claude API 비용을 월 800~2,000달러에서 약 215달러로 줄였습니다.

OpenClawRadar
레딧 게시물: 개발자들은 더 나운 도구뿐만 아니라 더 나은 AI 코딩 관행이 필요합니다
Guides

레딧 게시물: 개발자들은 더 나운 도구뿐만 아니라 더 나은 AI 코딩 관행이 필요합니다

레딧 게시글은 개발자들이 AI 코딩 도구에 대해 불만을 갖는 이유가 맥락이나 구조 없이 '원시 프롬프팅'을 사용하는 부적절한 프롬프트 작성 습관 때문이라고 주장합니다. 저자는 CLAUDE.md 같은 스캐폴딩과 구조화된 워크플로우를 사용하여 Claude로부터 프로덕션 준비가 된 코드를 얻을 것을 권장합니다.

OpenClawRadar
에이전트 기술 안전성 평가: 설치 전 주요 고려사항
Guides

에이전트 기술 안전성 평가: 설치 전 주요 고려사항

새로운 에이전트 스킬을 설치하면 기능을 향상시킬 수 있지만 위험도 따릅니다. 시스템을 보호하기 위해 이러한 스킬의 안전성을 평가하는 방법을 알아보세요.

OpenClawRadar