Qwen3.6-27B tient sur un seul GPU de 24 Go, surpassant l'ancien 397B MoE sur SWE-bench

Qwen3.6-27B est sorti le 22 avril, apportant un modèle dense de 27B qui tient sur un seul GPU 24 Go en Q4_K_M (~16,8 Go) et obtient un score de 77,2 sur SWE-bench Verified — battant le précédent modèle MoE de 397B (76,2). Pour les développeurs utilisant des agents de codage locaux sur du matériel grand public, cela change le seuil pour les modèles agentiques performants.
Spécifications clés et architecture
- Contexte de 262K tokens
- Licence Apache 2.0
- Attention linéaire Gated DeltaNet (3 des 4 sous-couches) avec Gated Attention pour le reste
- « Thinking Preservation » conserve les traces de raisonnement entre les tours, réduisant la génération redondante de tokens et améliorant l'efficacité du cache KV dans les longues sessions agentiques
Configuration matérielle requise
En Q4_K_M, le modèle utilise ~16,8 Go de VRAM, tenant confortablement sur une seule carte 24 Go (par ex., RTX 3090/4090, A10G). En comparaison, Qwen3-Coder-Next (80B MoE, 3B actifs) nécessite 45–80 Go à la même quantification, le limitant à des configurations double GPU ou Apple Silicon avec 48 Go+ de mémoire unifiée.
Mises en garde et pièges
- N'utilisez PAS CUDA 13.2 — cela produit des résultats erronés. Tenez-vous-en à CUDA 13.1 ou 12.x.
- Pour les utilisateurs déjà sous Coder-Next sur du matériel 48 Go+ pour des tâches agentiques, le changement n'est pas clairement bénéfique.
- Pour les utilisateurs mono-GPU coincés avec des modèles de codage locaux plus anciens ou moins performants, Qwen3.6-27B est actuellement l'option la plus performante dans la catégorie 24 Go.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Application Claude Desktop Télécharge Silencieusement un Fichier de 13 Go à Chaque Lancement Sans Option de Désactivation
L'application de bureau Claude télécharge automatiquement un fichier d'environ 12,95 Go appelé claudevm.bundle à chaque lancement, même pour les utilisateurs qui n'utilisent pas Claude Code. Le support d'Anthropic a confirmé que cela est intentionnel et que les utilisateurs individuels n'ont aucun moyen de le désactiver.

sseanliu/VisionClaw apporte une assistance IA en temps réel aux lunettes intelligentes Meta Ray-Ban
VisionClaw de sseanliu propose une révolutionnaire assistance IA pour les lunettes intelligentes Meta Ray-Ban, combinant la voix, la vision et les actions agentiques alimentées par Gemini Live et OpenClaw.

Claude Code v2.1.133 : restauration de worktree.baseRef, chemins sandbox, correction du proxy pour MCP OAuth
Anthropic publie la version v2.1.133 de Claude Code CLI avec un nouveau paramètre worktree.baseRef par défaut à fresh (branche depuis origin/default), sandbox.bwrapPath et sandbox.socatPath pour des binaires bubblewrap/socat personnalisés, un correctif proxy/mTLS pour le flux OAuth MCP, et plusieurs corrections de bugs.

Claude Code 2.1.84 ajoute un prompt d'agent généraliste et un outil PowerShell, et supprime les prompts redondants
Claude Code 2.1.84 introduit un nouveau prompt de sous-agent polyvalent pour les opérations sur les bases de code et une description d'outil PowerShell avec des directives pour éviter les commandes de veille. La mise à jour supprime neuf prompts redondants et simplifie plusieurs descriptions d'outils.