Qwen3.6-27B passt auf eine einzelne 24-GB-GPU, schlägt das frühere 397B MoE auf SWE-bench

✍️ OpenClawRadar📅 Veröffentlicht: 29. April 2026🔗 Source
Qwen3.6-27B passt auf eine einzelne 24-GB-GPU, schlägt das frühere 397B MoE auf SWE-bench
Ad

Qwen3.6-27B wurde am 22. April veröffentlicht und bringt ein 27B dichtes Modell, das in eine einzelne 24-GB-GPU bei Q4_K_M (~16,8 GB) passt und 77,2 Punkte im SWE-bench Verified erzielt – und damit das bisherige 397B MoE-Modell (76,2) übertrifft. Für Entwickler, die lokale Codierungsagenten auf Consumer-Hardware betreiben, verschiebt dies die Schwelle für leistungsfähige agentische Modelle.

Wichtige Spezifikationen und Architektur

  • 262K Kontextlänge
  • Apache 2.0 Lizenz
  • Gated DeltaNet lineare Aufmerksamkeit (3 von 4 Unterschichten) mit Gated Attention für den Rest
  • „Thinking Preservation“ überträgt Reasoning-Spuren über mehrere Schritte, reduziert redundante Token-Erzeugung und verbessert die KV-Cache-Effizienz in langen Agentensitzungen
Ad

Hardware-Anforderungen

Bei Q4_K_M benötigt das Modell ~16,8 GB VRAM und passt bequem auf eine einzelne 24-GB-Karte (z. B. RTX 3090/4090, A10G). Im Gegensatz dazu benötigt Qwen3-Coder-Next (80B MoE, 3B aktiv) bei derselben Quantisierung 45–80 GB, was es auf Dual-GPU-Setups oder Apple Silicon mit 48 GB+ Unified Memory beschränkt.

Einschränkungen und Fallstricke

  • Verwenden Sie NICHT CUDA 13.2 – es produziert fehlerhafte Ausgaben. Bleiben Sie bei CUDA 13.1 oder 12.x.
  • Für Benutzer, die Coder-Next bereits auf 48 GB+ Hardware für agentische Aufgaben ausführen, ist der Wechsel nicht offensichtlich vorteilhaft.
  • Für Single-GPU-Benutzer, die auf ältere oder schwächere lokale Codierungsmodelle angewiesen sind, ist Qwen3.6-27B derzeit die leistungsfähigste Option in der 24-GB-Klasse.

📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA

Ad

👀 Siehe auch