Optimisation de Qwen 3.6 27B/35B sur RTX 3090 : Flags, Quantification et Routage Automatique

✍️ OpenClawRadar📅 Publié: May 5, 2026🔗 Source

Un développeur exécutant les modèles Qwen 3.6 localement sur une RTX 3090 (24 Go de VRAM), Ryzen 5700X, 64 Go de RAM, Windows 11, rencontre des problèmes de performance et de fiabilité. Il utilise llama-server avec des flags personnalisés et cherche des conseils sur le choix de la quantification, le débit et le routage automatique des modèles.

Commandes et quantifications

35B (UD Q4_K_M) :

llama-server.exe -m "chemin\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" -ngl 99 -c 131072 -np 2 -fa on -ctk f16 -ctv f16 -b 2048 -ub 512 -t 8 --mlock -rea on --reasoning-budget 2048 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0

27B (UD Q4_K_XL) :

llama-server.exe -m "chemin\Qwen3.6-27B-UD-Q4_K_XL.gguf" -ngl 99 -c 196608 -np 1 -fa on -ctk q8_0 -ctv q8_0 -b 2048 -ub 512 -t 8 --no-mmap -rea on --reasoning-budget -1 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0

Problèmes signalés

35B trop lent – même les tâches itératives simples semblent inutilisables.
27B plus rapide mais peu fiable – le code produit est défectueux ; des tâches simples peuvent prendre 20 à 30 minutes.
Changement manuel de modèle – il faut tuer le serveur, coller une nouvelle commande, recharger le modèle.

Questions spécifiques

Les flags sont-ils sous-optimaux ? (par ex., taille du contexte, taille du lot, type de cache)
Quelle quantification/modèle offre le meilleur équilibre entre vitesse et précision de codage sur 24 Go de VRAM ?
Comment basculer automatiquement entre les modèles par requête, ou garder plusieurs modèles chauds et les router ?

Contexte

L'utilisateur fait tourner l'agent Hermes sur un Raspberry Pi 5 pour le scraping et l'automatisation, et le codage local avec OpenCode/QwenCode. Il souhaite une configuration qui ne nécessite pas de redémarrages manuels du serveur.

📖 Lire la source complète : r/LocalLLaMA

👀 See Also

Guides

Configurer un serveur MCP pour qu'il s'installe lui-même : trois hôtes, trois mécanismes, pièges

Une plongée approfondie dans l'installation programmatique de serveurs MCP dans VS Code, Cursor et Claude Code — couvrant les API, les écritures de fichiers et les cas limites comme le JSON malformé, les écritures atomiques et les mises à jour idempotentes.

Jun 2, 2026, 12:15 AM UTC

OpenClawRadar

Guides

Anthropic publie le Kit Champion pour l'adoption de Claude Code

Un playbook pour les ingénieurs qui promeuvent Claude Code dans leur entreprise : partager des prompts réutilisables, répondre dans des canaux publics, et animer un fil hebdomadaire de type « montre et raconte » — environ 40 minutes par semaine au total.

Apr 29, 2026, 12:15 PM UTC

OpenClawRadar

Guides

Comment résoudre l'erreur 'Cannot find module' d'OpenClaw après une mise à jour

Après la mise à jour d'OpenClaw de la version 2026.3.24 à la version 2026.4.5, les utilisateurs rencontrent une erreur 'Cannot find module @buape/carbon'. La solution consiste à exécuter manuellement un script de post-installation au lieu d'installer le paquet globalement.

Apr 16, 2026, 08:45 AM UTC

OpenClawRadar

Guides

Glossaire pratique de la terminologie des agents IA (Harnais, Échafaudage, Agent, etc.)

Un glossaire du blog Hugging Face expliquant les termes courants des agents IA comme Harness, Scaffold et Agent avec des définitions simples et des exemples concrets.

Jun 13, 2026, 12:16 PM UTC

OpenClawRadar