Ejecutando Qwen3.6 27B y 35B en 6GB VRAM con ik_llama: Configuraciones prácticas y puntos de referencia

Un usuario de Reddit informa que ejecuta con éxito los modelos Qwen3.6 27B y 35B A3B en un portátil gaming antiguo con una RTX 2060 Mobile (6 GB VRAM) y 32 GB RAM usando ik_llama y llama.cpp. Las optimizaciones clave incluyen decodificación especulativa doble con MTP y ngram, --fit y --mtp-requantize-output-tensor, además del reempaquetado del tensor de salida. A continuación se muestran las configuraciones exactas y las velocidades observadas.
Config para Qwen3.6 27B (Q3_K_XL)
export GGML_CUDA_GRAPHS=1
./llama-server \
-m /mnt/second-ssd/lib/llama.cpp/models/Qwen3.6-27B-MTP-UD-Q3_K_XL.gguf \
-c 16000 \
-b 512 -ub 512 \
--fit --fit-margin 3076 \
-fa on \
-np 1 \
-ctk q4_0 -ctv q4_0 \
--mtp-requantize-output-tensor q4_0 \
-khad -vhad -rtr \
--threads 6 --threads-batch 8 \
--slot-save-path ./slots \
--prompt-cache "prompt.cache" \
--port 8888 --host 0.0.0.0 \
--spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
--spec-stage mtp:n_max=1,draft-p-min=0.0 \
--temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
--jinja \
--chat-template-kwargs '{"preserve_thinking": true}' \
--reasoning on
Config para Qwen3.6 35B A3B (IQ4_XS, destilado de Claude Opus)
export GGML_CUDA_GRAPHS=1
./llama-server \
-m /mnt/second-ssd/lib/llama.cpp/models/lordx64-Claude-4.7-Opus-Reasoning-Distilled-Qwen3.6-35B-A3B-MTP-IQ4_XS.gguf \
-c 80000 \
-b 1024 -ub 1024 \
--fit --fit-margin 2048 \
-fa on \
-np 1 \
-ctk q8_0 -ctv q4_0 \
--mtp-requantize-output-tensor q4_0 \
-khad -vhad -rtr \
--threads 6 --threads-batch 8 \
--slot-save-path ./slots \
--prompt-cache "prompt.cache" \
--mlock --no-mmap \
--port 8888 --host 0.0.0.0 \
--spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
--spec-stage mtp:n_max=3,draft-p-min=0.0 \
--temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
--jinja \
--chat-template-kwargs '{"preserve_thinking": true}' \
--reasoning on
Números de rendimiento
- 27B: prefill ~100 t/s, primer token hasta 4 t/s, ~1 t/s con contexto de 10k
- 35B A3B: prefill ~40 t/s, primer token hasta 15 t/s, constante ~11 t/s con contexto de 10k
El usuario señala que el 27B se volvió utilizable para razonar sobre archivos de hasta 1000 líneas (tomando minutos pero útil), y el destilado de Opus de 35B funciona a una salida constante de 11 t/s. Lo usa para generar diagramas mermaid, imágenes, markdown y PDFs con flujos de trabajo de codificación little-coder o agente.
📖 Leer la fuente original: r/LocalLLaMA
👀 Ver también

Cuatro modos de fallo específicos de aarch64 al ejecutar vLLM en Blackwell GB10 con CUDA 13.0
Un desarrollador encontró cuatro modos de fallo específicos al configurar vLLM v0.7.1 con DeepSeek-R1-32B en un sistema Blackwell GB10 con arquitectura aarch64 y CUDA 13.0, incluyendo incompatibilidades de ABI y dependencias faltantes.

DeepSeek-V4-Flash W4A16+FP8 con autospeculación MTP: 85 tok/s en 2x RTX PRO 6000 Max-Q
DeepSeek-V4-Flash cuantizado a W4A16+FP8 alcanza 85.52 tok/s en contexto de 524k en 2× RTX PRO 6000 Max-Q usando un vLLM modificado con cabezal MTP adaptado, frente a 52.85 tok/s de referencia.

Mapas de Flujo: Aprendiendo la Integral de un Modelo de Difusión para un Muestreo más Rápido
Sander Dieleman explica los mapas de flujo — redes neuronales que predicen directamente la integral de la EDO de un modelo de difusión, permitiendo un muestreo más rápido, aprendizaje basado en recompensas y direccionabilidad.

Un Solo Sopa, Un Solo Plato: Un Principio Cocinero Japonés para el Agotamiento por IA
Takuya aplica el principio culinario japonés 'Ichiju Issai' para combatir la fatiga de la IA: simplifica tu stack tecnológico a una herramienta principal y una secundaria, como una comida de arroz, sopa y un plato.