OmniCoder-9Bをローカルで実行するためのllama.cpp設定詳細

ハードウェルとモデル設定
この設定では中程度のハードウェルを使用しています:AMD Ryzen 9 5900X CPU(推論に12スレッド使用)、62GB DDR4 RAM、NVIDIA RTX 3080(10GB VRAM)、NVMe SSD、リモートサーバー上のUbuntu 22.04。
モデルはOmniCoder-9Bで、Qwen3.5-9Bをベースに、Tesslateによる425k以上のコーディングエージェント軌跡でファインチューニングされています。Q6_K量子化(ファイルサイズ6.85GB)を使用し、128Kトークンのコンテキストウィンドウを持ち、HuggingFaceから入手されています。
llama.cpp設定
モデルは以下の特定のフラグでllama.cppサーバーを介して実行されます:
llama-server \ --model /home/openclaw/models/omnicoder-9b/omnicoder-9b-q6_k.gguf \ --host 0.0.0.0 --port 8080 \ --ctx-size 131072 \ --n-gpu-layers 99 \ --cache-type-k q8_0 \ --cache-type-v q4_0 \ --threads 12 \ --batch-size 128 \ --flash-attn on \ --temp 0.4 \ --top-k 20 \ --top-p 0.95 \ --jinja \ --reasoning-budget 0
主要パラメータの説明:
--ctx-size 131072:大規模なコードベース用の128Kコンテキストウィンドウ--n-gpu-layers 99:すべてのレイヤーをGPUにオフロード--cache-type-k q8_0 --cache-type-v q4_0:圧縮KVキャッシュで10GB VRAM内に128Kコンテキストを収納--threads 12:物理コア数に一致(ハイパースレッドではない)--flash-attn on:高速なアテンション計算--reasoning-budget 0:reasoning_contentフィールドでの連鎖思考出力を無効化し、モデルが直接コードを出力するようにする
パフォーマンスとテスト
パフォーマンス指標:プロンプト評価は約300トークン/秒、生成は約80-90トークン/秒、VRAM使用量は約8.5GB/10GB、典型的なコーディングタスクのレイテンシは1-5秒。
テストは、自律エージェントフレームワークであるAgent Zeroによって実施されました。Agent ZeroはGLM-5を主要な頭脳として使用し、--reasoning-budget 0フラグを発見し、リモートサーバーにSSH接続し、systemdサービスを更新し、ベンチマークスクリプトを一から作成し、複数のベンチマーク(HumanEval base、HumanEval Pro、MBPP、MultiPL-E)を実行し、プロンプトエンジニアリングを繰り返しました。
ベンチマーク結果
公式主張との比較によるベンチマーク結果:
- HumanEval base:公式92.7%、実行1:100%、実行2:95%、実行3:95%、平均:96.7%
- HumanEval Pro:公式70.1%、実行1:70%、平均:70%
HumanEval baseの平均スコア96.7%は公式の92.7%を上回り、HumanEval Proは70%で完全に一致しました。
📖 Read the full source: r/LocalLLaMA
👀 See Also

OpenClaw v2026.3.13におけるサブエージェントが表示されない問題の修正
OpenClaw v2026.3.13でカスタムサブエージェントがエージェントリストに表示されない問題の回避策: openclaw.jsonのエージェントリストをIDのみに簡略化し、runs.jsonでステータスを'idle'に設定して手動でエージェントを登録します。

DeepSeek-V4-Flash W4A16+FP8とMTP自己推測:2x RTX PRO 6000 Max-Qで毎秒85トークン
DeepSeek-V4-FlashをW4A16+FP8に量子化し、MTPヘッドを後付けしたパッチ済みvLLMを使用して、2× RTX PRO 6000 Max-Q上で524kコンテキストにおいて85.52 tok/sを達成(ベースラインの52.85 tok/sから向上)。

どのAIモデルを使うべきか尋ねるのはやめよう:タスクをHaiku、Sonnet、Opusの階層に振り分けよう
タスクタイプごとに少なくとも3つのモデルを使い分けよう。読書・要約にはHaikuクラス、コード作成にはSonnetクラス、複数ファイルのリファクタリングやデバッグにはOpusクラスのみを使用する。あるユーザーの設定では、タスクの40%を安価なモデル、35%を中級、25%を最先端のモデルに振り分け、月額約30~40ドルかかっている。

OpenClawのプロンプト肥大化と応答ループの遅延を修正
2026.4.26以降、長い遅延が発生しているユーザーは、コンテキストの肥大化を減らすことでパフォーマンスを取り戻せます。常に注入されるファイルをトリミングし、表示スキルを制限し、メインチャットに大量のツール出力を貼り付けないようにしましょう。