6GB VRAM에서 Qwen3.6 27B 및 35B를 ik_llama로 실행하기: 실용 설정 및 벤치마크

✍️ OpenClawRadar📅 게시일: May 17, 2026🔗 Source
6GB VRAM에서 Qwen3.6 27B 및 35B를 ik_llama로 실행하기: 실용 설정 및 벤치마크
Ad

한 Reddit 사용자가 오래된 게이밍 노트북(RTX 2060 Mobile, 6GB VRAM, 32GB RAM)에서 ik_llama와 llama.cpp를 사용하여 Qwen3.6 27B 및 35B A3B 모델을 성공적으로 실행했다고 보고했습니다. 주요 최적화로는 MTP 및 ngram을 사용한 이중 추측 디코딩, --fit--mtp-requantize-output-tensor, 출력 텐서 재패킹이 포함됩니다. 아래는 정확한 설정과 관측된 속도입니다.

Qwen3.6 27B (Q3_K_XL) 설정

export GGML_CUDA_GRAPHS=1
./llama-server \
  -m /mnt/second-ssd/lib/llama.cpp/models/Qwen3.6-27B-MTP-UD-Q3_K_XL.gguf \
  -c 16000 \
  -b 512 -ub 512 \
  --fit --fit-margin 3076 \
  -fa on \
  -np 1 \
  -ctk q4_0 -ctv q4_0 \
  --mtp-requantize-output-tensor q4_0 \
  -khad -vhad -rtr \
  --threads 6 --threads-batch 8 \
  --slot-save-path ./slots \
  --prompt-cache "prompt.cache" \
  --port 8888 --host 0.0.0.0 \
  --spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
  --spec-stage mtp:n_max=1,draft-p-min=0.0 \
  --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
  --jinja \
  --chat-template-kwargs '{"preserve_thinking": true}' \
  --reasoning on
Ad

Qwen3.6 35B A3B (IQ4_XS, Claude Opus Distill) 설정

export GGML_CUDA_GRAPHS=1
./llama-server \
  -m /mnt/second-ssd/lib/llama.cpp/models/lordx64-Claude-4.7-Opus-Reasoning-Distilled-Qwen3.6-35B-A3B-MTP-IQ4_XS.gguf \
  -c 80000 \
  -b 1024 -ub 1024 \
  --fit --fit-margin 2048 \
  -fa on \
  -np 1 \
  -ctk q8_0 -ctv q4_0 \
  --mtp-requantize-output-tensor q4_0 \
  -khad -vhad -rtr \
  --threads 6 --threads-batch 8 \
  --slot-save-path ./slots \
  --prompt-cache "prompt.cache" \
  --mlock --no-mmap \
  --port 8888 --host 0.0.0.0 \
  --spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
  --spec-stage mtp:n_max=3,draft-p-min=0.0 \
  --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
  --jinja \
  --chat-template-kwargs '{"preserve_thinking": true}' \
  --reasoning on

성능 수치

  • 27B: 프리필 ~100 t/s, 첫 토큰 최대 4 t/s, 10k 컨텍스트에서 ~1 t/s
  • 35B A3B: 프리필 ~40 t/s, 첫 토큰 최대 15 t/s, 10k 컨텍스트에서 일정 ~11 t/s

사용자는 27B가 최대 1000줄의 파일 추론에 사용 가능했고(몇 분 소요되지만 유용), 35B Opus 증류 모델이 꾸준히 11 t/s 출력 속도를 냈다고 언급했습니다. little-coder 또는 에이전트 코딩 워크플로우를 통해 머메이드 차트, 이미지, 마크다운, PDF를 생성하는 데 사용하고 있습니다.

📖 전체 출처 읽기: r/LocalLLaMA

Ad

👀 See Also

OpenClaw의 기본 메모리를 프로덕션 다중 에이전트 시스템을 위해 Redis와 Qdrant로 교체하기
Guides

OpenClaw의 기본 메모리를 프로덕션 다중 에이전트 시스템을 위해 Redis와 Qdrant로 교체하기

한 개발자가 멀티 에이전트 설정에서 발생하는 확장성 문제를 해결하기 위해 OpenClaw의 기본 SQLite 메모리를 임시 상태용 Redis와 지속적 벡터 메모리용 Qdrant로 교체했습니다. 이로써 시맨틱 검색, 에이전트 간 공유, 동시 쓰기 기능을 구현했습니다.

OpenClawRadar
작은 로컬 모델에서 코딩 에이전트를 실행할 때 발생하는 문제점
Guides

작은 로컬 모델에서 코딩 에이전트를 실행할 때 발생하는 문제점

7B 미만 모델로 다중 파일 작업을 테스트하면서 발견한 실제 실패 지점: 마크다운 펜스, 구조화된 출력 신뢰성, 파일 편집 오류, 읽기/쓰기 작업 분류.

OpenClawRadar
OpenClaw + Ollama 로컬 모델 타임아웃 디버깅: 침묵하는 실패를 해결하는 다섯 가지 방법
Guides

OpenClaw + Ollama 로컬 모델 타임아웃 디버깅: 침묵하는 실패를 해결하는 다섯 가지 방법

개발자가 OpenClaw 에이전트가 Gemma 4 26B와 같은 로컬 Ollama 모델에서 자동 타임아웃되는 5가지 근본 원인을 파악했습니다. 여기에는 블로킹 슬러그 생성기, 38K 문자 시스템 프롬프트, 숨겨진 타임아웃 등이 포함됩니다. 해결 방법은 훅 비활성화, 설정 수정, Ollama 설정 조정을 포함합니다.

OpenClawRadar
프록시 계층으로 클로드 코워크를 보호하는 방법: 실용 가이드
Guides

프록시 계층으로 클로드 코워크를 보호하는 방법: 실용 가이드

Claude Cowork의 행동을 관찰하고 보호하기 위한 프록시 계층 설정 가이드(General Analysis 팀 게시)

OpenClawRadar