ローカルQwen 3.6 27BをCodex検証用コエージェントとしてベンチマーク

r/LocalLLaMAの開発者が、OpenAIのCodexと並行してローカルのQwenモデルをバリデータおよびチャレンジャーとして実行し、この役割に最適なGGUF量子化プロファイルを定量化するための小さな再現可能な評価スイートを構築しました。ワークフロー:Codexがメインのリポジトリ作業を担当し、ローカルのQwenが計画に挑戦し、過剰構築、見逃されたハードディレクティブ、UI/デザインの問題、悪い前提、長期コンテキストの見落としをチェックします。著者は各インタラクションを確認してから次のステップに進みます。
評価スイートのセットアップ
スイートは、llama.cppを通じてQwen 3.6 27B GGUFプロファイル(BartowskiおよびUnslothバリアント)を異なるコンテキストサイズとKVキャッシュ形式(q8、f16)でテストします。焦点は実際の障害(見逃されたディレクティブ、不適切なチャレンジ動作、過剰構築、UI判断、長期コンテキストの見落とし)に当てられています。
主要な発見
- このスイートでトップパフォーマンスのプロファイルは、
bartowski-128k-f16、bartowski-128k-q8、unsloth-128k-q8でした。3つすべてが精度で同点でした。 - q8 KVキャッシュは、この特定のスイートでは測定可能な精度低下を示しませんでした。
- このワークフローでは、コンテキストサイズがf16対q8 KVよりも重要でした。65kプロファイルは、スイートが65kトークンを超える必要がある場合に失敗しました。
unsloth-128k-f16は読み込まれましたが、RTX 5090上で長文ケースにおいてメモリ/スループットの圧力がかかりました。
実用的な観察
著者によると、QwenはCodexのサイレントバイパス、過剰構築、およびコーディング完了へのショートカットを非常にうまくキャッチします。UI関連のタスクでは、Codexが実装する間、Qwenがデザインで主導権を握ります。役割が逆転します:Qwenが計画に挑戦し、人間が各段階の前にレビューします。
リソース
- プロジェクトページ:https://robert896r1.github.io/qwen-realworld-accuracy-evals/
- リポジトリ:https://github.com/robert896r1/qwen-realworld-accuracy-evals
📖 全文ソースを読む: r/LocalLLaMA
👀 See Also

Claude CodeはToolSearchでツールスキーマを遅延読み込みし、トークンを節約する
Claude Codeはツールスキーマの読み込みを遅延させ、最初にツール名のみを送信し、使用前にToolSearch呼び出しでスキーマを取得する。この設計によりトークン消費を大幅に削減する。

オープンモンタージュ:AIコーディングアシスタント向けオープンソース・エージェント型映像制作システム
OpenMontageは、Claude CodeのようなAIコーディングアシスタントを本格的な制作スタジオに変えるオープンソースの映像制作システムです。リサーチ、シーン構成、脚本作成、音声ナレーション、音楽選択、字幕生成、自動化パイプラインによる検証までを一貫して処理します。

ターミナルベースの3Dレンダラー - マルチエージェントClaudeコードシステムで構築
開発者がtortuiseを作成しました。これは、UnicodeとASCII記号を使用してガウススプラットを表示する、純粋なターミナルベースの3Dレンダラーです。Claude Codeセットアップを通じて、サブエージェント内にさらにサブエージェントを持つ70〜80のAIエージェントを調整し、3日間で構築されました。

コーディングエージェントにおけるサイレントツール障害:隠れた効率性の低下
コーディングエージェントは、代替戦略にフォールバックしてトークンを無駄にし、品質を低下させるため、気付かれないツール障害にしばしば直面します。オープンソースツールのVibeyardはこれらの障害を検出し、修正を提案します。