Compte rendu terrain : Qwen 3.6 27B sur un MacBook Pro M2 (32 Go) – Très lent mais sortie intelligente

Un développeur sur r/LocalLLaMA a testé Qwen 3.6 27B (quantification IQ4_XS unsloth) sur un MacBook Pro M2 avec 32 Go de RAM. Comme prévu, la machine est sous-dimensionnée pour un modèle dense de 27B, mais le rapport de terrain fournit des chiffres concrets et un avis réaliste sur les performances et la qualité des résultats.
Commande et configuration
Le modèle a été servi avec llama-server en utilisant la commande suivante :
llama-server -m ~/models/unsloth/Qwen3.6-27B-IQ4_XS.gguf --mmproj ~/models/unsloth/Qwen3.6-27B-mmproj-BF16.gguf -c 131072 --batch-size 256 -ngl 99 -np 1 --host 127.0.0.1 --port 8899 -ctk q8_0 -ctv q8_0 --spec-type ngram-mod --spec-ngram-size-n 24 --draft-min 12 --draft-max 48
Choix notables : processus unique (-np 1) pour éviter de surcharger le GPU, décodage spéculatif avec ngram-mod, et une fenêtre de contexte de 131072 tokens.
Répartition des performances
Vitesses initiales : 80 t/s en traitement de prompt, 7,9 t/s en génération de tokens. À 52 000 tokens de contexte, les performances se sont effondrées à 4 t/s en traitement de prompt — ce que l'auteur confirme n'est pas une erreur de frappe — et 3,1 t/s en génération de tokens. La pression mémoire n'est jamais entrée dans la zone rouge, indiquant que le goulet d'étranglement est la bande passante mémoire, pas le swap.
Décodage spéculatif inefficace
Le rapporteur a activé le décodage spéculatif ngram-mod mais n'a observé aucun avantage réel. Les logs montrent :
accept: low acceptance streak (3) – resetting ngram_mod ... draft acceptance rate = 1.00000 ( 2 accepted / 2 generated)
Le modèle se réinitialise constamment en raison du faible nombre de correspondances n-gram ; le taux d'acceptation apparent de 100% est un artefact de la petite taille des échantillons. L'auteur conclut que les modèles denses comme celui-ci ne se répètent pas assez pour que l'approche ngram-mod fonctionne bien.
Qualité du code
Malgré la lenteur, le code généré par Qwen 3.6 27B a été jugé excellent. Il a analysé une base de code significative sans incitation supplémentaire au-delà de la tâche initiale et a surpassé le modèle Qwen 35B A3B (MoE) en qualité. L'auteur compare le résultat à ce qu'on attendrait d'un Claude Sonnet auto-hébergé, et note que même Claude Opus 4.7 était impressionné.
Points clés à retenir
- La bande passante mémoire domine les modèles denses : Sur Apple Silicon, la génération de tokens a diminué de moitié à mesure que le contexte augmentait. Même sans swap, l'étranglement de la bande passante a tué les performances.
- Le processus unique est la voie à suivre : Exécuter des tâches d'agent concurrentes sur ce matériel n'offre aucun avantage — seulement une mise en file d'attente séquentielle.
- Le décodage spéculatif dépend du modèle : Ngram-mod n'a pas aidé ici ; la faible répétitivité du modèle a empêché les correspondances de brouillon.
L'auteur prévoit de tester Qwen 3.6 27B sur un GPU cloud avec des spécifications comparables au R9700 (prix actuel ~1 400 $ sur Amazon, plus élevé sur eBay) pour obtenir une véritable idée de ses capacités sur ses propres tâches de programmation.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Gaspillage de tokens dans Claude Code : Un auto-audit utilisateur montre que les corrections comportementales surpassent le changement de modèle
Un utilisateur a mesuré l'utilisation des tokens dans Claude Code et a découvert que /clear entre les tâches, la planification avant l'édition et l'interdiction de relecture des fichiers modifiés permettaient d'économiser plus de tokens que le changement de modèle. La discipline pratique bat les wrappers.

Un processus de travail en IA en deux étapes pour la modernisation du code hérité
Un post Reddit décrit une approche en deux étapes de 'rétro-ingénierie' pour utiliser l'IA avec du code hérité : d'abord extraire la logique métier dans un Document d'Exigences Métier indépendant de la technologie, puis utiliser un prompt 'Architecte en Chef' pour reconstruire à partir de zéro avec les meilleures pratiques modernes.

Conception Claude : 7 astuces pour ne pas brûler vos limites
Verrouillez le brief dans une conversation Claude classique d'abord, configurez le système de design avant la première requête, joignez des références sous forme de captures d'écran, liez des sous-répertoires pas des dépôts entiers, utilisez les curseurs pour les petites modifications, collez les commentaires en ligne comme sauvegarde, adaptez le format d'exportation à la destination.

Utiliser des récits de projet pour gérer la mémoire dans les grands projets OpenClaw
Un développeur partage un processus où, après chaque étape majeure, il lance un worker OpenClaw séparé pour analyser la base de code et rédiger un document de 'récit de projet', qui aide à identifier les pipelines cassés, les redondances et les éléments manquants que le worker principal pourrait négliger.