Optimisation de Qwen 3.6 27B/35B sur RTX 3090 : Flags, Quantification et Routage Automatique

✍️ OpenClawRadar📅 Publié: May 5, 2026🔗 Source
Optimisation de Qwen 3.6 27B/35B sur RTX 3090 : Flags, Quantification et Routage Automatique
Ad

Un développeur exécutant les modèles Qwen 3.6 localement sur une RTX 3090 (24 Go de VRAM), Ryzen 5700X, 64 Go de RAM, Windows 11, rencontre des problèmes de performance et de fiabilité. Il utilise llama-server avec des flags personnalisés et cherche des conseils sur le choix de la quantification, le débit et le routage automatique des modèles.

Commandes et quantifications

35B (UD Q4_K_M) :

llama-server.exe -m "chemin\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" -ngl 99 -c 131072 -np 2 -fa on -ctk f16 -ctv f16 -b 2048 -ub 512 -t 8 --mlock -rea on --reasoning-budget 2048 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0

27B (UD Q4_K_XL) :

llama-server.exe -m "chemin\Qwen3.6-27B-UD-Q4_K_XL.gguf" -ngl 99 -c 196608 -np 1 -fa on -ctk q8_0 -ctv q8_0 -b 2048 -ub 512 -t 8 --no-mmap -rea on --reasoning-budget -1 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0
Ad

Problèmes signalés

  • 35B trop lent – même les tâches itératives simples semblent inutilisables.
  • 27B plus rapide mais peu fiable – le code produit est défectueux ; des tâches simples peuvent prendre 20 à 30 minutes.
  • Changement manuel de modèle – il faut tuer le serveur, coller une nouvelle commande, recharger le modèle.

Questions spécifiques

  • Les flags sont-ils sous-optimaux ? (par ex., taille du contexte, taille du lot, type de cache)
  • Quelle quantification/modèle offre le meilleur équilibre entre vitesse et précision de codage sur 24 Go de VRAM ?
  • Comment basculer automatiquement entre les modèles par requête, ou garder plusieurs modèles chauds et les router ?

Contexte

L'utilisateur fait tourner l'agent Hermes sur un Raspberry Pi 5 pour le scraping et l'automatisation, et le codage local avec OpenCode/QwenCode. Il souhaite une configuration qui ne nécessite pas de redémarrages manuels du serveur.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Tirer le meilleur parti de Claude : le workflow d'un analyste de données avec Cowork et Claude Code
Guides

Tirer le meilleur parti de Claude : le workflow d'un analyste de données avec Cowork et Claude Code

Un analyste de données sans expérience en codage partage comment il utilise Cowork pour l'automatisation de bout en bout et Claude Code pour les tâches lourdes — construisant un outil de génération de leads utilisant l'API Google Places, un tableau de bord anti-fraude et une publication automatisée sur les réseaux sociaux.

OpenClawRadar
Maîtriser la Sauvegarde : Protéger Votre Agent OpenClaw
Guides

Maîtriser la Sauvegarde : Protéger Votre Agent OpenClaw

À une époque dominée par l'automatisation et l'IA, assurer la sécurité de votre agent OpenClaw grâce à des stratégies de sauvegarde robustes est primordial. Découvrez les étapes essentielles pour sécuriser votre assistant numérique.

OpenClawRadar
Fil de discussion de la communauté OpenClaw : Partagez votre configuration de codage IA et vos coûts mensuels
Guides

Fil de discussion de la communauté OpenClaw : Partagez votre configuration de codage IA et vos coûts mensuels

Un fil de discussion Reddit dans r/openclaw rassemble des configurations pratiques pour les agents d'IA de codage, en se concentrant sur les stratégies de routage des modèles, les règles d'économie de coûts et les correspondances matériel-modèle sourcées par la communauté avec des fourchettes de coût mensuelles.

OpenClawRadar
Flux de travail pratique avec Claude Code pour les équipes de développement
Guides

Flux de travail pratique avec Claude Code pour les équipes de développement

Un utilisateur de Reddit partage sa présentation interne sur les meilleures pratiques de Claude Code, incluant la sélection de modèle, les workflows structurés et des techniques de prompt spécifiques pour améliorer la qualité des résultats.

OpenClawRadar