Qwen3.5-27B local : vLLM vs llama.cpp

Performances et capacités de Qwen3.5-27B

Le modèle Qwen3.5-27B démontre de solides performances dans divers benchmarks selon la source : MMLU-Pro : 85,3, MMLU-Redux : 93,3, C-Eval : 90,2, score d'intelligence globale : 42,1 (meilleur que 91 % des modèles comparés), et indice de codage : 34,9 (dépasse 88 % en capacités de codage). Le modèle présente une architecture dense avec un contexte natif de 262k extensible à plus de 1 million de tokens.

Comparaison des backends : llama.cpp vs vLLM

La source compare deux approches principales pour le déploiement local :

Option 1 : llama.cpp

Avantages : Faible empreinte, configuration facile, prend en charge le cache KV q4 pour une utilisation raisonnable de la VRAM
Inconvénients : Problème majeur avec le cache KV qui s'efface aléatoirement, forçant un retraitement complet du prompt en milieu de session. Le décodage spéculatif via MTP ne fonctionne pas. Bogue connu sans correctifs solides pour l'instant.

Option 2 : vLLM

Avantages : Sessions stables, pas d'effacement du cache KV, prend en charge le décodage spéculatif avec MTP pour des générations plus rapides
Inconvénients : Pas de support du cache KV q4, donc pics de VRAM à 256k de contexte. L'analyse des appels d'outils est boguée pour Qwen3.5 dans v0.17.1, avec des correctifs dans des PR GitHub ouvertes mais pas encore fusionnées. Cela casse les flux de codage agentique avec des sorties JSON mal formées.

Configuration recommandée pour vLLM

La source fournit des recommandations de configuration spécifiques pour des exécutions stables et rapides en utilisant le modèle de HF : osoleve/Qwen3.5-27B-Text-NVFP4-MTP :

Utiliser le backend flashinfer cutlass pour des performances optimisées
Définir la fenêtre de contexte à 128k (équilibre entre VRAM et utilisabilité ; augmenter à 256k si le matériel le permet)
Limiter l'utilisation du GPU à 0,82 pour éviter les plantages par manque de mémoire
Définir max-num-seq à 2 (gère une seule session correctement sans surallocation)
Activer le décodage spéculatif MTP pour des améliorations de vitesse
Patcher vLLM avec les correctifs d'analyse des appels d'outils Qwen des PR ouvertes
Utiliser Claude code cli - le code ouvert a toujours des problèmes d'analyse des appels d'outils qui n'apparaissent pas sur Claude code après le patch