Qwen3.6-27B: 24GB GPUに収まり、SWE-benchで397B MoEを上回る

Qwen3.6-27Bが4月22日にリリースされました。これは27Bの高密度モデルで、Q4_K_M（約16.8GB）で1つの24GB GPUに収まり、SWE-bench Verifiedで77.2のスコアを記録し、以前の397B MoEモデル（76.2）を上回っています。コンシューマーハードウェアでローカルコーディングエージェントを実行する開発者にとって、これは有能なエージェントモデルの敷居を変えるものです。

主な仕様とアーキテクチャ

262Kコンテキスト長
Apache 2.0ライセンス
Gated DeltaNet線形注意機構（4つのサブレイヤーのうち3つ）と残りにGated Attention
Thinking Preservationにより、ターン間で推論トレースを引き継ぎ、冗長なトークン生成を削減し、長いエージェントセッションでのKVキャッシュ効率を向上

ハードウェア要件

Q4_K_Mでは、モデルは約16.8GBのVRAMを使用し、1枚の24GBカード（例：RTX 3090/4090、A10G）に快適に収まります。対照的に、Qwen3-Coder-Next（80B MoE、3Bアクティブ）では、同じ量子化で45〜80GB必要であり、デュアルGPUセットアップまたは48GB以上のユニファイドメモリを搭載したApple Siliconに制限されます。

注意点と落とし穴

CUDA 13.2は使用しないでください。出力がガタガタになります。CUDA 13.1または12.xを使用してください。
すでに48GB以上のハードウェアでエージェントタスク用にCoder-Nextを実行しているユーザーにとって、切り替えは明らかに有益ではありません。
古いまたは性能の低いローカルコーディングモデルで行き詰まっているシングルGPUユーザーにとって、Qwen3.6-27Bは現在、24GBクラスで最も有能なオプションです。

📖 出典全文: r/LocalLLaMA

Qwen3.6-27Bが単一の24GB GPUに収まり、SWE-benchで以前の397B MoEを上回る性能を達成

主な仕様とアーキテクチャ

ハードウェア要件

注意点と落とし穴

👀 See Also

AIの10万のなぜ：準決定的なLLM出力が特徴的なスロップを生み出す方法

オープンクローの可能性を解き放つ：CodeXとの統合

神経科学に着想を得たAIエージェントのメモリ・アーキテクチャ、Claudeの自動夢検証を経て

Claude Code v2.1.77 リリース: トークン制限、サンドボックス制御、バグ修正