DeepSWEベンチマークにおけるQwen 3.6 27Bの性能:スコア2%、処理時間70時間、平均出力トークン数44k

RedditユーザーがQwen 3.6 27BをDeepSWEベンチマークで評価し、2%(切り上げ1.79%)のスコアを記録。20モデル中18位で、Haiku 4.5やMinimax M2.7を上回りました。全実行は70時間、タスク平均時間32分、タスクあたり平均出力トークン数44kで、これは大規模モデルであるQwen 3.6 Plusと驚くほど同等であり、27Bモデルの冗長性が知られているにもかかわらずです。
方法論
- モデル: Qwen 3.6 27B FP8(BF16 KVキャッシュ、推論有効、262kコンテキストウィンドウ、VLLM経由)
- ハードウェア: RunPod上の1x RTX6000 Pro Blackwell
- エージェントハーネス: Modalサンドボックス上のmini-swe
- タスクあたり1ロールアウト(公式の4ロールアウトの代わりに時間節約のため); スコア範囲なし
- コストはRunPodの時間単価から計算(完了タスク対象)
- オーケストレーション: Codex 5.5xhighが全実行を監視・管理
主な観察
著者は、スコアがQwen 3.6 Plusと不気味なほど近いことに言及し、アーキテクチャの違いについて疑問を呈しています。ローカルモデルは最先端のクローズドソースモデルにますます遅れを取っていると論じています。K2.6は最高のオープンソースモデルですが、ほとんどの人はローカルで実行できません。Qwen 3.6 27Bは「貧乏人のSOTA」ローカルオプションとして位置づけられています。この傾向は、最先端のパフォーマンスには大規模が必要であり、それがクローズドソースにつながることが多く、ローカル推論は競争力の面で負け戦であることを示唆しています。
📖 全文を読む: r/LocalLLaMA
👀 See Also

AIサブスクリプションには信頼できるメーターが必要:サービス透明性への要請
あるRedditの投稿は、AIサブスクリプションは、実際に提供されたモデル、推論努力、コンテキスト処理、負荷管理を示す基本的なサービスレシートを提供すべきだと主張し、それを度量衡の基準に例えている。

GPT 5.4 タスク完了の問題と回避策
ユーザーから、GPT 5.4がタスクを途中で停止し、誤った進捗報告を行うとの報告があります。回避策としてハートビートシステムやcronジョブの使用が挙げられますが、これらはトークン使用量とメモリの問題を増加させます。

深圳市龍崗区、AIエージェントスタートアップ向けにOpenClaw補助金を提案
深セン市龍崗区は、OpenClawエコシステムの開発と一人会社(OPC)スタートアップを対象とした補助金と支援を提供する政策文書の草案を発表し、AIエージェント起業の世界的ハブとなることを目指しています。

LibreOffice Onlineの開発がコミュニティ投票後に再開
コミュニティ投票により2022年の凍結が無効化された後、The Document FoundationはLibreOffice Onlineの作業を再開しました。TDFは貢献を受け付けるためにリポジトリを再開しますが、サーバーをホストすることはなく、代わりに自己ホスト可能なツールを提供します。