開発者がローカルコーディングタスクでQwen3.5 27Bと大規模モデルを比較テスト

開発者がローカルでのコーディングタスク向けに複数の大規模言語モデルをテストし、パフォーマンスとハードウェア要件を比較しました。テストは主にQwen3.5のバリアントとNemotronモデルに焦点を当て、GPT-5.4 Highとの比較も行いました。
テスト結果と発見
開発者がテストした具体的なモデルは以下の通りです:
- unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL
- unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL
- unsloth/Qwen3.5-122B-A10B-GGUF
- unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL
- unsloth/Qwen3.5-27B-GGUF:UD-Q8_K_XL
- unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF:UD-IQ4_XS
- unsloth/gpt-oss-120b-GGUF:F16
テストから得られた主な発見:
- Nemotron-3-Super-120Bは「非常に、非常に優れて」おり、GPT-5.4 Highと同等の性能
- Qwen3.5-27Bは開発タスクで良好な性能を発揮
- GPT-OSS-120BとQwen3.5-122Bは他の2つのモデルよりも性能が劣る
- Nemotron-3-Super-120Bは一貫してスペイン語(テスターの母国語)で応答し、他のモデルは英語で応答
パフォーマンス指標
開発者が提供した具体的なパフォーマンス数値:
- Nemotron-3-Super-120B: 80トークン/秒 (tg/s)、約2000プロンプト処理 (pp)、4x RTX 3090でvast.ai上で100kコンテキスト
- Qwen3.5-27B Q6: 803 pp、25 tg/s、vast.ai上で256kコンテキスト
ハードウェア要件
開発者が指摘したハードウェア制約:
- Qwen3.5-122Bは新しいマザーボードと追加の1-2枚のRTX 3090カードが必要で、コストが高すぎる
- Qwen3.5-27Bは既存の2x RTX 3090ハードウェアで追加投資なしで動作
- Nemotron-3-Super-120B用のハードウェアがあれば、そちらを使用するだろう
実装詳細
開発者は実際の開発タスクにQwen3.5-27B-GGUF:UD-Q6_K_XLをローカルで使用する計画で、テストに使用したllama.cppコマンドを提供しました:
./llama.cpp/llama-server -hf unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL --ctx-size 262144 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -ngl 999
開発者は、複雑なタスクには引き続きCODEXを使用するが、日常タスクのAPIサブスクリプションをローカルセットアップで置き換えられると述べています。
📖 Read the full source: r/LocalLLaMA
👀 See Also

バディボード:Claude Codeの/buddy機能のための競争リーダーボード
BuddyBoardは、Claude Codeの/buddy機能のための競争型リーダーボードを作成するコミュニティ構築ツールで、統計データ、レアリティ階層、1,728通りの組み合わせを追跡するBuddyDexを備えたトレーディングカードを生成します。npx buddy-boardを実行して、あなたのバディをグローバルランキングに登録できます。

オープンソースのClaudeプラグインが、ライブプレビュー付きのインタラクティブなビジュアルチューナーを生成します
開発者が、Claude CodeでCSS値を微調整するためのスライダーとFigmaスタイルの無限キャンバスを備えた単一HTMLページを生成するオープンソースプラグインを構築しました。このプラグインはソースファイルを読み取り、インタラクティブなキャンバス上で要素を再現し、ライブプレビュー付きで精密な調整を行うコントロールを提供します。

デュアルモデルアーキテクチャは、長い会話においてトークン消費量を半減させます。
開発者は、小さな「潜在意識」モデルがバックグラウンドで会話履歴を圧縮する二重モデルシステムを構築しました。これにより、メインモデルは生の120Kトークンの履歴ではなく、精選された約35Kトークンのコンテキストで作業できます。このアーキテクチャは、継続的なプロジェクト作業においてトークン消費量を約半分に削減します。

クランカーランク:クロード・ハイクによるAI支援コーディングスキルのベンチマーク
開発者がClankerRankを構築し、ClaudeのHaiku 4.5モデルを使用したAI支援コーディングの習熟度を測定しています。このプラットフォームはユーザーに同じバグを提示し、隠れたテストスイートで出力を採点し、数百人の参加者間で明確なスキルギャップを明らかにしました。