Qwen 3.6 27B DeepSWE: スコア2%、70時間実行、44kトークン

RedditユーザーがQwen 3.6 27BをDeepSWEベンチマークで評価し、2%（切り上げ1.79%）のスコアを記録。20モデル中18位で、Haiku 4.5やMinimax M2.7を上回りました。全実行は70時間、タスク平均時間32分、タスクあたり平均出力トークン数44kで、これは大規模モデルであるQwen 3.6 Plusと驚くほど同等であり、27Bモデルの冗長性が知られているにもかかわらずです。

方法論

モデル: Qwen 3.6 27B FP8（BF16 KVキャッシュ、推論有効、262kコンテキストウィンドウ、VLLM経由）
ハードウェア: RunPod上の1x RTX6000 Pro Blackwell
エージェントハーネス: Modalサンドボックス上のmini-swe
タスクあたり1ロールアウト（公式の4ロールアウトの代わりに時間節約のため）; スコア範囲なし
コストはRunPodの時間単価から計算（完了タスク対象）
オーケストレーション: Codex 5.5xhighが全実行を監視・管理

主な観察

著者は、スコアがQwen 3.6 Plusと不気味なほど近いことに言及し、アーキテクチャの違いについて疑問を呈しています。ローカルモデルは最先端のクローズドソースモデルにますます遅れを取っていると論じています。K2.6は最高のオープンソースモデルですが、ほとんどの人はローカルで実行できません。Qwen 3.6 27Bは「貧乏人のSOTA」ローカルオプションとして位置づけられています。この傾向は、最先端のパフォーマンスには大規模が必要であり、それがクローズドソースにつながることが多く、ローカル推論は競争力の面で負け戦であることを示唆しています。

📖 全文を読む: r/LocalLLaMA

DeepSWEベンチマークにおけるQwen 3.6 27Bの性能：スコア2%、処理時間70時間、平均出力トークン数44k

方法論

主な観察

👀 See Also

AIサブスクリプションには信頼できるメーターが必要：サービス透明性への要請

GPT 5.4 タスク完了の問題と回避策

深圳市龍崗区、AIエージェントスタートアップ向けにOpenClaw補助金を提案

LibreOffice Onlineの開発がコミュニティ投票後に再開