ローカルQwen 3.6 27BをCodex検証用コエージェントとしてベンチマーク

r/LocalLLaMAの開発者が、OpenAIのCodexと並行してローカルのQwenモデルをバリデータおよびチャレンジャーとして実行し、この役割に最適なGGUF量子化プロファイルを定量化するための小さな再現可能な評価スイートを構築しました。ワークフロー：Codexがメインのリポジトリ作業を担当し、ローカルのQwenが計画に挑戦し、過剰構築、見逃されたハードディレクティブ、UI/デザインの問題、悪い前提、長期コンテキストの見落としをチェックします。著者は各インタラクションを確認してから次のステップに進みます。

評価スイートのセットアップ

スイートは、llama.cppを通じてQwen 3.6 27B GGUFプロファイル（BartowskiおよびUnslothバリアント）を異なるコンテキストサイズとKVキャッシュ形式（q8、f16）でテストします。焦点は実際の障害（見逃されたディレクティブ、不適切なチャレンジ動作、過剰構築、UI判断、長期コンテキストの見落とし）に当てられています。

主要な発見

このスイートでトップパフォーマンスのプロファイルは、bartowski-128k-f16、bartowski-128k-q8、unsloth-128k-q8 でした。3つすべてが精度で同点でした。
q8 KVキャッシュは、この特定のスイートでは測定可能な精度低下を示しませんでした。
このワークフローでは、コンテキストサイズがf16対q8 KVよりも重要でした。65kプロファイルは、スイートが65kトークンを超える必要がある場合に失敗しました。
unsloth-128k-f16 は読み込まれましたが、RTX 5090上で長文ケースにおいてメモリ/スループットの圧力がかかりました。