Exécution de Qwen3.6 27B et 35B sur 6 Go de VRAM avec ik_llama : configurations pratiques et benchmarks

✍️ OpenClawRadar📅 Publié: May 17, 2026🔗 Source
Exécution de Qwen3.6 27B et 35B sur 6 Go de VRAM avec ik_llama : configurations pratiques et benchmarks
Ad

Un utilisateur de Reddit rapporte avoir réussi à exécuter les modèles Qwen3.6 27B et 35B A3B sur un ancien PC portable de jeu équipé d'une RTX 2060 Mobile (6 Go VRAM) et 32 Go RAM en utilisant ik_llama et llama.cpp. Les optimisations clés incluent le décodage spéculatif double avec MTP et ngram, --fit et --mtp-requantize-output-tensor, plus le réempaquetage du tenseur de sortie. Voici les configurations exactes et les vitesses observées.

Configuration pour Qwen3.6 27B (Q3_K_XL)

export GGML_CUDA_GRAPHS=1
./llama-server \
  -m /mnt/second-ssd/lib/llama.cpp/models/Qwen3.6-27B-MTP-UD-Q3_K_XL.gguf \
  -c 16000 \
  -b 512 -ub 512 \
  --fit --fit-margin 3076 \
  -fa on \
  -np 1 \
  -ctk q4_0 -ctv q4_0 \
  --mtp-requantize-output-tensor q4_0 \
  -khad -vhad -rtr \
  --threads 6 --threads-batch 8 \
  --slot-save-path ./slots \
  --prompt-cache "prompt.cache" \
  --port 8888 --host 0.0.0.0 \
  --spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
  --spec-stage mtp:n_max=1,draft-p-min=0.0 \
  --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
  --jinja \
  --chat-template-kwargs '{"preserve_thinking": true}' \
  --reasoning on
Ad

Configuration pour Qwen3.6 35B A3B (IQ4_XS, Claude Opus Distill)

export GGML_CUDA_GRAPHS=1
./llama-server \
  -m /mnt/second-ssd/lib/llama.cpp/models/lordx64-Claude-4.7-Opus-Reasoning-Distilled-Qwen3.6-35B-A3B-MTP-IQ4_XS.gguf \
  -c 80000 \
  -b 1024 -ub 1024 \
  --fit --fit-margin 2048 \
  -fa on \
  -np 1 \
  -ctk q8_0 -ctv q4_0 \
  --mtp-requantize-output-tensor q4_0 \
  -khad -vhad -rtr \
  --threads 6 --threads-batch 8 \
  --slot-save-path ./slots \
  --prompt-cache "prompt.cache" \
  --mlock --no-mmap \
  --port 8888 --host 0.0.0.0 \
  --spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
  --spec-stage mtp:n_max=3,draft-p-min=0.0 \
  --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
  --jinja \
  --chat-template-kwargs '{"preserve_thinking": true}' \
  --reasoning on

Métriques de performance

  • 27B : préremplissage ~100 t/s, premier token jusqu'à 4 t/s, ~1 t/s à 10k de contexte
  • 35B A3B : préremplissage ~40 t/s, premier token jusqu'à 15 t/s, constant ~11 t/s à 10k de contexte

L'utilisateur note que le 27B est devenu utilisable pour raisonner sur des fichiers jusqu'à 1000 lignes (nécessitant des minutes mais utile), et que le 35B Opus distill fonctionne à une sortie stable de 11 t/s. Il l'utilise pour générer des diagrammes mermaid, des images, du markdown et des PDF avec des workflows de codage little-coder ou agentic.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Flux de travail pratique avec Claude Code pour les équipes de développement
Guides

Flux de travail pratique avec Claude Code pour les équipes de développement

Un utilisateur de Reddit partage sa présentation interne sur les meilleures pratiques de Claude Code, incluant la sélection de modèle, les workflows structurés et des techniques de prompt spécifiques pour améliorer la qualité des résultats.

OpenClawRadar
Créer 9 compétences Claude pour un studio solo : instructions d'empilage pour un travail réel
Guides

Créer 9 compétences Claude pour un studio solo : instructions d'empilage pour un travail réel

Un développeur solo a créé neuf compétences Claude pour la production vidéo, l'analyse, le SEO, la modélisation financière, et plus encore. Point clé : rédigez les compétences comme des instructions à un collègue expérimenté, pas comme de la documentation. Les compétences se déclenchent automatiquement et s'empilent lorsque les tâches se chevauchent.

OpenClawRadar
Traduction en fr : Problèmes et solutions de configuration de l'accès conditionnel Claude Code O365 MCP
Guides

Traduction en fr : Problèmes et solutions de configuration de l'accès conditionnel Claude Code O365 MCP

Un développeur partage des solutions spécifiques pour deux problèmes rencontrés lors de la configuration du connecteur O365 MCP de Claude Code sous des politiques d'accès conditionnel : trouver les identifiants d'application corrects pour les règles de politique et résoudre les erreurs d'authentification liées aux emplacements des serveurs.

OpenClawRadar
Contournement par Raccourci iOS pour envoyer des photos iPhone à Cowork via la synchronisation iCloud
Guides

Contournement par Raccourci iOS pour envoyer des photos iPhone à Cowork via la synchronisation iCloud

Un développeur a créé un raccourci iOS appelé "PhoPo" qui convertit les photos de l'iPhone en JPEG, les redimensionne et les enregistre dans un dossier synchronisé via iCloud accessible par Cowork, permettant ainsi à Claude d'analyser des captures d'écran et des photos provenant d'appareils mobiles.

OpenClawRadar