Qwen3.6-27B tient sur un seul GPU de 24 Go, surpassant l'ancien 397B MoE sur SWE-bench

✍️ OpenClawRadar📅 Publié: April 29, 2026🔗 Source

Qwen3.6-27B est sorti le 22 avril, apportant un modèle dense de 27B qui tient sur un seul GPU 24 Go en Q4_K_M (~16,8 Go) et obtient un score de 77,2 sur SWE-bench Verified — battant le précédent modèle MoE de 397B (76,2). Pour les développeurs utilisant des agents de codage locaux sur du matériel grand public, cela change le seuil pour les modèles agentiques performants.

Spécifications clés et architecture

Contexte de 262K tokens
Licence Apache 2.0
Attention linéaire Gated DeltaNet (3 des 4 sous-couches) avec Gated Attention pour le reste
« Thinking Preservation » conserve les traces de raisonnement entre les tours, réduisant la génération redondante de tokens et améliorant l'efficacité du cache KV dans les longues sessions agentiques

Configuration matérielle requise

En Q4_K_M, le modèle utilise ~16,8 Go de VRAM, tenant confortablement sur une seule carte 24 Go (par ex., RTX 3090/4090, A10G). En comparaison, Qwen3-Coder-Next (80B MoE, 3B actifs) nécessite 45–80 Go à la même quantification, le limitant à des configurations double GPU ou Apple Silicon avec 48 Go+ de mémoire unifiée.

Mises en garde et pièges

N'utilisez PAS CUDA 13.2 — cela produit des résultats erronés. Tenez-vous-en à CUDA 13.1 ou 12.x.
Pour les utilisateurs déjà sous Coder-Next sur du matériel 48 Go+ pour des tâches agentiques, le changement n'est pas clairement bénéfique.
Pour les utilisateurs mono-GPU coincés avec des modèles de codage locaux plus anciens ou moins performants, Qwen3.6-27B est actuellement l'option la plus performante dans la catégorie 24 Go.

📖 Read the full source: r/LocalLLaMA

👀 See Also

News

Claude Code 2.1.132 : Documentation multi-agents, porte de planification, changements de limite de compétences

La version v2.1.132 ajoute la documentation des agents gérés pour les sessions multi-agents, les résultats et les webhooks ; introduit une porte de refus par défaut pour les offres proactives /schedule ; réduit la limite de compétences documentée de 64 à 20 par agent.

May 7, 2026, 12:17 AM UTC

OpenClawRadar

News

Claude contre GPT-4o : Même consigne pour double pendule, conventions de coordonnées différentes

Claude et GPT-4o produisent des simulations de double pendule visuellement différentes car ils interprètent thêta à partir de verticales opposées — haut contre bas — tout en utilisant le même moteur de rendu. Les calculs sont corrects dans les deux cas, mais le décalage révèle une ambiguïté subtile dans l'interprétation du prompt.

May 16, 2026, 04:16 PM UTC

OpenClawRadar

News

Claude Cowork pour Windows ARM64 publié avec un vérificateur de compatibilité

Anthropic a rendu Claude Cowork disponible pour les appareils Windows ARM64, nécessitant Windows 11 Pro avec Hyper-V et la virtualisation activée. L'entreprise fournit un outil de vérification de compatibilité EXE pour vérifier les exigences système.

Apr 6, 2026, 05:45 AM UTC

OpenClawRadar

News

Forbes : La facture des licenciements liés à l'IA arrive à échéance — les directeurs techniques paieront deux fois

Forbes soutient que le coût des licenciements liés à l'IA frappera les entreprises deux fois : d'abord par les indemnités de départ et le moral, puis par le réembauche lorsque les gains d'efficacité attendus ne se matérialisent pas.

May 14, 2026, 08:15 PM UTC

OpenClawRadar