Configuration de Qwen3.5-27B en local : Comparaison entre vLLM et llama.cpp

✍️ OpenClawRadar📅 Publié: March 15, 2026🔗 Source
Configuration de Qwen3.5-27B en local : Comparaison entre vLLM et llama.cpp
Ad

Performances et capacités de Qwen3.5-27B

Le modèle Qwen3.5-27B démontre de solides performances dans divers benchmarks selon la source : MMLU-Pro : 85,3, MMLU-Redux : 93,3, C-Eval : 90,2, score d'intelligence globale : 42,1 (meilleur que 91 % des modèles comparés), et indice de codage : 34,9 (dépasse 88 % en capacités de codage). Le modèle présente une architecture dense avec un contexte natif de 262k extensible à plus de 1 million de tokens.

Comparaison des backends : llama.cpp vs vLLM

La source compare deux approches principales pour le déploiement local :

Option 1 : llama.cpp

  • Avantages : Faible empreinte, configuration facile, prend en charge le cache KV q4 pour une utilisation raisonnable de la VRAM
  • Inconvénients : Problème majeur avec le cache KV qui s'efface aléatoirement, forçant un retraitement complet du prompt en milieu de session. Le décodage spéculatif via MTP ne fonctionne pas. Bogue connu sans correctifs solides pour l'instant.

Option 2 : vLLM

  • Avantages : Sessions stables, pas d'effacement du cache KV, prend en charge le décodage spéculatif avec MTP pour des générations plus rapides
  • Inconvénients : Pas de support du cache KV q4, donc pics de VRAM à 256k de contexte. L'analyse des appels d'outils est boguée pour Qwen3.5 dans v0.17.1, avec des correctifs dans des PR GitHub ouvertes mais pas encore fusionnées. Cela casse les flux de codage agentique avec des sorties JSON mal formées.
Ad

Configuration recommandée pour vLLM

La source fournit des recommandations de configuration spécifiques pour des exécutions stables et rapides en utilisant le modèle de HF : osoleve/Qwen3.5-27B-Text-NVFP4-MTP :

  • Utiliser le backend flashinfer cutlass pour des performances optimisées
  • Définir la fenêtre de contexte à 128k (équilibre entre VRAM et utilisabilité ; augmenter à 256k si le matériel le permet)
  • Limiter l'utilisation du GPU à 0,82 pour éviter les plantages par manque de mémoire
  • Définir max-num-seq à 2 (gère une seule session correctement sans surallocation)
  • Activer le décodage spéculatif MTP pour des améliorations de vitesse
  • Patcher vLLM avec les correctifs d'analyse des appels d'outils Qwen des PR ouvertes
  • Utiliser Claude code cli - le code ouvert a toujours des problèmes d'analyse des appels d'outils qui n'apparaissent pas sur Claude code après le patch

Résultats de performances

Selon la source, les performances varient selon le matériel :

  • Sur un RTX 5090 (32 Go de VRAM) : ~50 TPS
  • Sur un RTX Pro 6000 (96 Go de VRAM) : 70 TPS à plein contexte 256k

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Traduction en fr : Problèmes et solutions de configuration de l'accès conditionnel Claude Code O365 MCP
Guides

Traduction en fr : Problèmes et solutions de configuration de l'accès conditionnel Claude Code O365 MCP

Un développeur partage des solutions spécifiques pour deux problèmes rencontrés lors de la configuration du connecteur O365 MCP de Claude Code sous des politiques d'accès conditionnel : trouver les identifiants d'application corrects pour les règles de politique et résoudre les erreurs d'authentification liées aux emplacements des serveurs.

OpenClawRadar
Modèles de défaillance d'OpenClaw : 42 incidents réels en 28 jours
Guides

Modèles de défaillance d'OpenClaw : 42 incidents réels en 28 jours

Un développeur utilisant OpenClaw quotidiennement a documenté 42 échecs spécifiques répartis en huit catégories, incluant des hallucinations de l'IA, des pannes d'authentification et des automatisations qui coûtent plus de temps qu'elles n'en font gagner. La source fournit des exemples concrets comme l'expiration des jetons OAuth de Google après 7 jours et Opus 4.6 ajoutant des métadonnées indésirables aux fichiers.

OpenClawRadar
Accédez à GPT-5.4 via l'abonnement Codex dans OpenClaw
Guides

Accédez à GPT-5.4 via l'abonnement Codex dans OpenClaw

Un post Reddit détaille comment configurer OpenClaw pour utiliser GPT-5.4 via un abonnement OpenAI Codex en modifiant le fichier de configuration openclaw.json et en redémarrant la passerelle.

OpenClawRadar
Automatisation du rafraîchissement des jetons OAuth pour les bots avec Claude Code
Guides

Automatisation du rafraîchissement des jetons OAuth pour les bots avec Claude Code

Un utilisateur de Reddit partage une méthode pour éviter l'expiration des jetons OAuth en configurant Claude Code pour rafraîchir automatiquement les jetons toutes les 8 heures, permettant aux bots de fonctionner en continu sans intervention manuelle.

OpenClawRadar