Qwen 3.6 27B sur MacBook M2 : Test complet (7,9 t/s)

Un développeur sur r/LocalLLaMA a testé Qwen 3.6 27B (quantification IQ4_XS unsloth) sur un MacBook Pro M2 avec 32 Go de RAM. Comme prévu, la machine est sous-dimensionnée pour un modèle dense de 27B, mais le rapport de terrain fournit des chiffres concrets et un avis réaliste sur les performances et la qualité des résultats.

Commande et configuration

Le modèle a été servi avec llama-server en utilisant la commande suivante :

llama-server -m ~/models/unsloth/Qwen3.6-27B-IQ4_XS.gguf --mmproj ~/models/unsloth/Qwen3.6-27B-mmproj-BF16.gguf -c 131072 --batch-size 256 -ngl 99 -np 1 --host 127.0.0.1 --port 8899 -ctk q8_0 -ctv q8_0 --spec-type ngram-mod --spec-ngram-size-n 24 --draft-min 12 --draft-max 48

Choix notables : processus unique (-np 1) pour éviter de surcharger le GPU, décodage spéculatif avec ngram-mod, et une fenêtre de contexte de 131072 tokens.

Répartition des performances

Vitesses initiales : 80 t/s en traitement de prompt, 7,9 t/s en génération de tokens. À 52 000 tokens de contexte, les performances se sont effondrées à 4 t/s en traitement de prompt — ce que l'auteur confirme n'est pas une erreur de frappe — et 3,1 t/s en génération de tokens. La pression mémoire n'est jamais entrée dans la zone rouge, indiquant que le goulet d'étranglement est la bande passante mémoire, pas le swap.

Décodage spéculatif inefficace

Le rapporteur a activé le décodage spéculatif ngram-mod mais n'a observé aucun avantage réel. Les logs montrent :

accept: low acceptance streak (3) – resetting ngram_mod ... draft acceptance rate = 1.00000 ( 2 accepted / 2 generated)

Le modèle se réinitialise constamment en raison du faible nombre de correspondances n-gram ; le taux d'acceptation apparent de 100% est un artefact de la petite taille des échantillons. L'auteur conclut que les modèles denses comme celui-ci ne se répètent pas assez pour que l'approche ngram-mod fonctionne bien.

Qualité du code

Malgré la lenteur, le code généré par Qwen 3.6 27B a été jugé excellent. Il a analysé une base de code significative sans incitation supplémentaire au-delà de la tâche initiale et a surpassé le modèle Qwen 35B A3B (MoE) en qualité. L'auteur compare le résultat à ce qu'on attendrait d'un Claude Sonnet auto-hébergé, et note que même Claude Opus 4.7 était impressionné.

Points clés à retenir

La bande passante mémoire domine les modèles denses : Sur Apple Silicon, la génération de tokens a diminué de moitié à mesure que le contexte augmentait. Même sans swap, l'étranglement de la bande passante a tué les performances.
Le processus unique est la voie à suivre : Exécuter des tâches d'agent concurrentes sur ce matériel n'offre aucun avantage — seulement une mise en file d'attente séquentielle.
Le décodage spéculatif dépend du modèle : Ngram-mod n'a pas aidé ici ; la faible répétitivité du modèle a empêché les correspondances de brouillon.

L'auteur prévoit de tester Qwen 3.6 27B sur un GPU cloud avec des spécifications comparables au R9700 (prix actuel ~1 400 $ sur Amazon, plus élevé sur eBay) pour obtenir une véritable idée de ses capacités sur ses propres tâches de programmation.

📖 Lire la source complète : r/LocalLLaMA