Qwen3.6 27B & 35B sur 6 Go VRAM : Benchmarks ik

Un utilisateur de Reddit rapporte avoir réussi à exécuter les modèles Qwen3.6 27B et 35B A3B sur un ancien PC portable de jeu équipé d'une RTX 2060 Mobile (6 Go VRAM) et 32 Go RAM en utilisant ik_llama et llama.cpp. Les optimisations clés incluent le décodage spéculatif double avec MTP et ngram, --fit et --mtp-requantize-output-tensor, plus le réempaquetage du tenseur de sortie. Voici les configurations exactes et les vitesses observées.

Configuration pour Qwen3.6 27B (Q3_K_XL)

export GGML_CUDA_GRAPHS=1
./llama-server \
  -m /mnt/second-ssd/lib/llama.cpp/models/Qwen3.6-27B-MTP-UD-Q3_K_XL.gguf \
  -c 16000 \
  -b 512 -ub 512 \
  --fit --fit-margin 3076 \
  -fa on \
  -np 1 \
  -ctk q4_0 -ctv q4_0 \
  --mtp-requantize-output-tensor q4_0 \
  -khad -vhad -rtr \
  --threads 6 --threads-batch 8 \
  --slot-save-path ./slots \
  --prompt-cache "prompt.cache" \
  --port 8888 --host 0.0.0.0 \
  --spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
  --spec-stage mtp:n_max=1,draft-p-min=0.0 \
  --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
  --jinja \
  --chat-template-kwargs '{"preserve_thinking": true}' \
  --reasoning on

Configuration pour Qwen3.6 35B A3B (IQ4_XS, Claude Opus Distill)

export GGML_CUDA_GRAPHS=1
./llama-server \
  -m /mnt/second-ssd/lib/llama.cpp/models/lordx64-Claude-4.7-Opus-Reasoning-Distilled-Qwen3.6-35B-A3B-MTP-IQ4_XS.gguf \
  -c 80000 \
  -b 1024 -ub 1024 \
  --fit --fit-margin 2048 \
  -fa on \
  -np 1 \
  -ctk q8_0 -ctv q4_0 \
  --mtp-requantize-output-tensor q4_0 \
  -khad -vhad -rtr \
  --threads 6 --threads-batch 8 \
  --slot-save-path ./slots \
  --prompt-cache "prompt.cache" \
  --mlock --no-mmap \
  --port 8888 --host 0.0.0.0 \
  --spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
  --spec-stage mtp:n_max=3,draft-p-min=0.0 \
  --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
  --jinja \
  --chat-template-kwargs '{"preserve_thinking": true}' \
  --reasoning on

Métriques de performance

27B : préremplissage ~100 t/s, premier token jusqu'à 4 t/s, ~1 t/s à 10k de contexte
35B A3B : préremplissage ~40 t/s, premier token jusqu'à 15 t/s, constant ~11 t/s à 10k de contexte

L'utilisateur note que le 27B est devenu utilisable pour raisonner sur des fichiers jusqu'à 1000 lignes (nécessitant des minutes mais utile), et que le 35B Opus distill fonctionne à une sortie stable de 11 t/s. Il l'utilise pour générer des diagrammes mermaid, des images, du markdown et des PDF avec des workflows de codage little-coder ou agentic.

📖 Lire la source complète : r/LocalLLaMA

Exécution de Qwen3.6 27B et 35B sur 6 Go de VRAM avec ik_llama : configurations pratiques et benchmarks

Configuration pour Qwen3.6 27B (Q3_K_XL)

Configuration pour Qwen3.6 35B A3B (IQ4_XS, Claude Opus Distill)

Métriques de performance

👀 See Also

Dépannage d'OpenClaw : Une méthode de réinitialisation minimaliste

Conseils de configuration d'OpenClaw tirés de l'expérience d'un utilisateur : MCP Gmail, drapeaux de profil et problèmes de réseau

Cinq problèmes courants de configuration d'OpenClaw qui augmentent les coûts des API

Exploiter les Compétences des Agents pour Écrire des Noyaux CUDA avec Upskill