Qwen3.5-27B vs 大規模モデル：ローカルコーディング性能比較テスト

開発者がローカルでのコーディングタスク向けに複数の大規模言語モデルをテストし、パフォーマンスとハードウェア要件を比較しました。テストは主にQwen3.5のバリアントとNemotronモデルに焦点を当て、GPT-5.4 Highとの比較も行いました。

テスト結果と発見

開発者がテストした具体的なモデルは以下の通りです：

テストから得られた主な発見：

開発者が提供した具体的なパフォーマンス数値：

Nemotron-3-Super-120B: 80トークン/秒 (tg/s)、約2000プロンプト処理 (pp)、4x RTX 3090でvast.ai上で100kコンテキスト
Qwen3.5-27B Q6: 803 pp、25 tg/s、vast.ai上で256kコンテキスト

開発者が指摘したハードウェア制約：

開発者は実際の開発タスクにQwen3.5-27B-GGUF:UD-Q6_K_XLをローカルで使用する計画で、テストに使用したllama.cppコマンドを提供しました：

./llama.cpp/llama-server -hf unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL --ctx-size 262144 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -ngl 999

開発者は、複雑なタスクには引き続きCODEXを使用するが、日常タスクのAPIサブスクリプションをローカルセットアップで置き換えられると述べています。

📖 Read the full source: r/LocalLLaMA