Qwen 3.6 27B, llama.cpp에서 MTP 추론적 디코딩으로 2.5배 속도 달성

✍️ OpenClawRadar📅 게시일: May 6, 2026🔗 Source
Qwen 3.6 27B, llama.cpp에서 MTP 추론적 디코딩으로 2.5배 속도 달성
Ad

한 Reddit 사용자가 Qwen 3.6 27B에 대해 MTP(Multi-Token Prediction)를 활성화하는 대기 중인 PR(#22673)과 함께 llama.cpp를 컴파일했습니다. MTP는 모델에 내장된 텐서 레이어를 사용하여 추측 디코딩을 수행하며, Mac M2 Max 96GB에서 약 11 tok/s에서 28 tok/s로 2.5배 속도 향상을 주장합니다.

주요 세부 사항

  • 모델: Qwen 3.6 27B (Qwen2.5-3.0 아키텍처 변형)
  • 테스트 하드웨어: Mac M2 Max 96GB
  • 결과: MTP 사용 시 28 tok/s (미사용 시 약 11 tok/s)
  • 컨텍스트 지원: 48GB Mac에서 turbo4 KV 캐시로 최대 262K 토큰
  • 양자화: 사용자가 froggeric/Qwen3.6-27B-MTP-GGUF에 업로드한 사전 변환 GGUF 양자화 파일

컴파일 지침

git clone --depth 1 https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
git fetch origin pull/22673/head:mtp-pr && git checkout mtp-pr
cmake -B build -DGGML_METAL=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build --target llama-cli llama-server
Ad

서버 명령어

llama-server -m Qwen3.6-27B-Q5_K_M-mtp.gguf \
  --mmproj mmproj-Qwen3.6-27B-f16.gguf \
  --spec-type mtp --spec-draft-n-max 5 \
  --cache-type-k turbo4 --cache-type-v turbo4 \
  -c 262144 --temp 0.7 --top-k 20 -ngl 99 --port 8081

세 가지 최적화 조합:

  • --spec-type mtp --spec-draft-n-max 5: MTP 추측 디코딩 활성화 (2.5배 빠름)
  • --cache-type-k turbo4 --cache-type-v turbo4: 4.25비트 KV 캐시 (16비트 대비 메모리 1/4)
  • -c 262144: 262K 컨텍스트 윈도우 (turbo4로 48GB에 적합)

하드웨어 권장 사항

Apple Silicon 및 NVIDIA GPU 양자화/KV 캐시 테이블이 RAM이 제한된 환경(예: 16GB Apple Silicon에서 48K 컨텍스트의 IQ2_M)을 위해 소스에 제공됩니다. 비전(mmproj) 지원은 32GB 이상 구성에서 사용 가능합니다.

추가 수정 사항

사용자는 또한 vLLM 특정 형식 때문에 깨졌던 Qwen jinja 채팅 템플릿에 대한 7가지 수정 사항을 게시했습니다. 이제 llama.cpp 및 다른 도구와 호환됩니다.

참고: Hugging Face의 기존 GGUF 파일에는 MTP 지원이 포함되어 있지 않습니다. PR을 적용하여 다시 변환해야 합니다. 사용자는 초기 업로드가 불완전할 수 있음을 경고합니다. Hugging Face 리포지토리 상태를 확인하세요.

📖 전체 소스 읽기: r/LocalLLaMA

Ad

👀 See Also

오픈소스 AI 에이전트 자가 치유 기술은 실패를 자동으로 감지하고 수정합니다.
Tools

오픈소스 AI 에이전트 자가 치유 기술은 실패를 자동으로 감지하고 수정합니다.

새로운 오픈소스 스킬은 AI 에이전트가 자동으로 실패를 감지하고 근본 원인을 진단하며 수정 사항을 구현할 수 있게 합니다. 여기에는 크론 작업, 하위 에이전트, 배포 로그를 위한 실패 스캐너와 이전 수정 사항에서 학습하는 데이터베이스가 포함됩니다.

OpenClawRadar
Mouser: MX Master 3S용 Logitech Options+ 오픈소스 대안
Tools

Mouser: MX Master 3S용 Logitech Options+ 오픈소스 대안

Mouser는 Logitech의 독점 소프트웨어 없이 Logitech MX Master 3S 마우스의 버튼을 재매핑하는 경량 오픈소스 도구입니다. 완전히 로컬에서 실행되며 원격 측정 기능이 없고, 애플리케이션별 프로필을 지원하며, DPI 제어와 배터리 모니터링 기능을 포함합니다.

OpenClawRadar
오픈소스 감시 도구, OpenClaw 생태계에서 에이전트 신원 문제 해결
Tools

오픈소스 감시 도구, OpenClaw 생태계에서 에이전트 신원 문제 해결

OpenClaw 사용자가 웹 서비스를 구축하는 과정에서 인간 사용자와 구분할 수 없는 에이전트 트래픽을 발견했으며, 이는 W3C DID 기반의 오픈 소스 신원 계층인 Vigil 개발로 이어졌습니다. Vigil은 에이전트를 위한 암호화 자격 증명과 행동 기록을 제공합니다.

OpenClawRadar
요요: 클로드 코드를 위한 로컬 MCP 서버로, 기반 코드베이스 읽기와 보호된 쓰기 기능을 제공합니다.
Tools

요요: 클로드 코드를 위한 로컬 MCP 서버로, 기반 코드베이스 읽기와 보호된 쓰기 기능을 제공합니다.

yoyo는 Rust, Go, Python, TypeScript를 포함한 16개 언어에서 접지된 저장소 읽기와 보호된 쓰기를 제공하는 오픈소스 로컬 MCP 서버입니다. 이 도구는 기계가 읽을 수 있는 guard_failure 출력을 반환하고 retry_plan을 활성화하여 표적 수리를 가능하게 함으로써 손상된 편집이 조용히 적용되는 것을 방지합니다.

OpenClawRadar