Qwen3.6-27B passt auf eine einzelne 24-GB-GPU, schlägt das frühere 397B MoE auf SWE-bench

Qwen3.6-27B wurde am 22. April veröffentlicht und bringt ein 27B dichtes Modell, das in eine einzelne 24-GB-GPU bei Q4_K_M (~16,8 GB) passt und 77,2 Punkte im SWE-bench Verified erzielt – und damit das bisherige 397B MoE-Modell (76,2) übertrifft. Für Entwickler, die lokale Codierungsagenten auf Consumer-Hardware betreiben, verschiebt dies die Schwelle für leistungsfähige agentische Modelle.
Wichtige Spezifikationen und Architektur
- 262K Kontextlänge
- Apache 2.0 Lizenz
- Gated DeltaNet lineare Aufmerksamkeit (3 von 4 Unterschichten) mit Gated Attention für den Rest
- „Thinking Preservation“ überträgt Reasoning-Spuren über mehrere Schritte, reduziert redundante Token-Erzeugung und verbessert die KV-Cache-Effizienz in langen Agentensitzungen
Hardware-Anforderungen
Bei Q4_K_M benötigt das Modell ~16,8 GB VRAM und passt bequem auf eine einzelne 24-GB-Karte (z. B. RTX 3090/4090, A10G). Im Gegensatz dazu benötigt Qwen3-Coder-Next (80B MoE, 3B aktiv) bei derselben Quantisierung 45–80 GB, was es auf Dual-GPU-Setups oder Apple Silicon mit 48 GB+ Unified Memory beschränkt.
Einschränkungen und Fallstricke
- Verwenden Sie NICHT CUDA 13.2 – es produziert fehlerhafte Ausgaben. Bleiben Sie bei CUDA 13.1 oder 12.x.
- Für Benutzer, die Coder-Next bereits auf 48 GB+ Hardware für agentische Aufgaben ausführen, ist der Wechsel nicht offensichtlich vorteilhaft.
- Für Single-GPU-Benutzer, die auf ältere oder schwächere lokale Codierungsmodelle angewiesen sind, ist Qwen3.6-27B derzeit die leistungsfähigste Option in der 24-GB-Klasse.
📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

Claude-Code-Cache-Fehler können die API-Kosten um das 10- bis 20-fache erhöhen
Zwei Cache-Fehler in Claude Code können API-Kosten stillschweigend um das 10- bis 20-fache erhöhen. Die Probleme wurden auf Reddit gemeldet und auf Hacker News diskutiert.

ThermoQA: Offener Benchmark für Ingenieur-Thermodynamik testet LLMs an 293 Berechnungsproblemen
ThermoQA ist ein offener Benchmark mit 293 Problemen aus der technischen Thermodynamik über drei Stufen, der LLMs auf exakte numerische Berechnungen testet. Claude Opus 4.6 führt mit einer Gesamtpunktzahl von 94,1 %, während DeepSeek-R1 mit ±2,5 % die höchste Lauf-zu-Lauf-Varianz aufweist.

Claude Opus 4.7 leidet unter erhöhten Fehlerraten — Status-Update
Ein automatischer Status-Update meldet erhöhte Fehler bei Claude Opus 4.7. Verfolgen Sie den Fortschritt auf der Incident-Seite und im Community-Megathread.

Andrej Karpathy tritt dem Pre-Training-Team von Anthropic bei, um die rekursive Selbstverbesserung mit Claude voranzutreiben
Andrej Karpathy, ehemaliger OpenAI-Mitbegründer, schließt sich unter Nick Josef dem Pre-Training-Team von Anthropic an, um ein neues Team aufzubauen, das sich darauf konzentriert, Claude zur Beschleunigung der Pre-Training-Forschung zu nutzen und so eine rekursive Selbstverbesserung zu ermöglichen.