Ejecutando Qwen3.6 27B y 35B en 6GB VRAM con ik_llama: Configuraciones prácticas y puntos de referencia

✍️ OpenClawRadar📅 Publicado: 17 de mayo de 2026🔗 Source
Ejecutando Qwen3.6 27B y 35B en 6GB VRAM con ik_llama: Configuraciones prácticas y puntos de referencia
Ad

Un usuario de Reddit informa que ejecuta con éxito los modelos Qwen3.6 27B y 35B A3B en un portátil gaming antiguo con una RTX 2060 Mobile (6 GB VRAM) y 32 GB RAM usando ik_llama y llama.cpp. Las optimizaciones clave incluyen decodificación especulativa doble con MTP y ngram, --fit y --mtp-requantize-output-tensor, además del reempaquetado del tensor de salida. A continuación se muestran las configuraciones exactas y las velocidades observadas.

Config para Qwen3.6 27B (Q3_K_XL)

export GGML_CUDA_GRAPHS=1
./llama-server \
  -m /mnt/second-ssd/lib/llama.cpp/models/Qwen3.6-27B-MTP-UD-Q3_K_XL.gguf \
  -c 16000 \
  -b 512 -ub 512 \
  --fit --fit-margin 3076 \
  -fa on \
  -np 1 \
  -ctk q4_0 -ctv q4_0 \
  --mtp-requantize-output-tensor q4_0 \
  -khad -vhad -rtr \
  --threads 6 --threads-batch 8 \
  --slot-save-path ./slots \
  --prompt-cache "prompt.cache" \
  --port 8888 --host 0.0.0.0 \
  --spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
  --spec-stage mtp:n_max=1,draft-p-min=0.0 \
  --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
  --jinja \
  --chat-template-kwargs '{"preserve_thinking": true}' \
  --reasoning on
Ad

Config para Qwen3.6 35B A3B (IQ4_XS, destilado de Claude Opus)

export GGML_CUDA_GRAPHS=1
./llama-server \
  -m /mnt/second-ssd/lib/llama.cpp/models/lordx64-Claude-4.7-Opus-Reasoning-Distilled-Qwen3.6-35B-A3B-MTP-IQ4_XS.gguf \
  -c 80000 \
  -b 1024 -ub 1024 \
  --fit --fit-margin 2048 \
  -fa on \
  -np 1 \
  -ctk q8_0 -ctv q4_0 \
  --mtp-requantize-output-tensor q4_0 \
  -khad -vhad -rtr \
  --threads 6 --threads-batch 8 \
  --slot-save-path ./slots \
  --prompt-cache "prompt.cache" \
  --mlock --no-mmap \
  --port 8888 --host 0.0.0.0 \
  --spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
  --spec-stage mtp:n_max=3,draft-p-min=0.0 \
  --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
  --jinja \
  --chat-template-kwargs '{"preserve_thinking": true}' \
  --reasoning on

Números de rendimiento

  • 27B: prefill ~100 t/s, primer token hasta 4 t/s, ~1 t/s con contexto de 10k
  • 35B A3B: prefill ~40 t/s, primer token hasta 15 t/s, constante ~11 t/s con contexto de 10k

El usuario señala que el 27B se volvió utilizable para razonar sobre archivos de hasta 1000 líneas (tomando minutos pero útil), y el destilado de Opus de 35B funciona a una salida constante de 11 t/s. Lo usa para generar diagramas mermaid, imágenes, markdown y PDFs con flujos de trabajo de codificación little-coder o agente.

📖 Leer la fuente original: r/LocalLLaMA

Ad

👀 Ver también