OmniCoder-9Bをローカルで実行するためのllama.cpp設定詳細

✍️ OpenClawRadar📅 公開日: March 14, 2026🔗 Source
OmniCoder-9Bをローカルで実行するためのllama.cpp設定詳細
Ad

ハードウェルとモデル設定

この設定では中程度のハードウェルを使用しています:AMD Ryzen 9 5900X CPU(推論に12スレッド使用)、62GB DDR4 RAM、NVIDIA RTX 3080(10GB VRAM)、NVMe SSD、リモートサーバー上のUbuntu 22.04。

モデルはOmniCoder-9Bで、Qwen3.5-9Bをベースに、Tesslateによる425k以上のコーディングエージェント軌跡でファインチューニングされています。Q6_K量子化(ファイルサイズ6.85GB)を使用し、128Kトークンのコンテキストウィンドウを持ち、HuggingFaceから入手されています。

llama.cpp設定

モデルは以下の特定のフラグでllama.cppサーバーを介して実行されます:

llama-server \
--model /home/openclaw/models/omnicoder-9b/omnicoder-9b-q6_k.gguf \
--host 0.0.0.0 --port 8080 \
--ctx-size 131072 \
--n-gpu-layers 99 \
--cache-type-k q8_0 \
--cache-type-v q4_0 \
--threads 12 \
--batch-size 128 \
--flash-attn on \
--temp 0.4 \
--top-k 20 \
--top-p 0.95 \
--jinja \
--reasoning-budget 0

主要パラメータの説明:

  • --ctx-size 131072:大規模なコードベース用の128Kコンテキストウィンドウ
  • --n-gpu-layers 99:すべてのレイヤーをGPUにオフロード
  • --cache-type-k q8_0 --cache-type-v q4_0:圧縮KVキャッシュで10GB VRAM内に128Kコンテキストを収納
  • --threads 12:物理コア数に一致(ハイパースレッドではない)
  • --flash-attn on:高速なアテンション計算
  • --reasoning-budget 0:reasoning_contentフィールドでの連鎖思考出力を無効化し、モデルが直接コードを出力するようにする
Ad

パフォーマンスとテスト

パフォーマンス指標:プロンプト評価は約300トークン/秒、生成は約80-90トークン/秒、VRAM使用量は約8.5GB/10GB、典型的なコーディングタスクのレイテンシは1-5秒。

テストは、自律エージェントフレームワークであるAgent Zeroによって実施されました。Agent ZeroはGLM-5を主要な頭脳として使用し、--reasoning-budget 0フラグを発見し、リモートサーバーにSSH接続し、systemdサービスを更新し、ベンチマークスクリプトを一から作成し、複数のベンチマーク(HumanEval base、HumanEval Pro、MBPP、MultiPL-E)を実行し、プロンプトエンジニアリングを繰り返しました。

ベンチマーク結果

公式主張との比較によるベンチマーク結果:

  • HumanEval base:公式92.7%、実行1:100%、実行2:95%、実行3:95%、平均:96.7%
  • HumanEval Pro:公式70.1%、実行1:70%、平均:70%

HumanEval baseの平均スコア96.7%は公式の92.7%を上回り、HumanEval Proは70%で完全に一致しました。

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

OpenClaw v2026.3.13におけるサブエージェントが表示されない問題の修正
Guides

OpenClaw v2026.3.13におけるサブエージェントが表示されない問題の修正

OpenClaw v2026.3.13でカスタムサブエージェントがエージェントリストに表示されない問題の回避策: openclaw.jsonのエージェントリストをIDのみに簡略化し、runs.jsonでステータスを'idle'に設定して手動でエージェントを登録します。

OpenClawRadar
DeepSeek-V4-Flash W4A16+FP8とMTP自己推測:2x RTX PRO 6000 Max-Qで毎秒85トークン
Guides

DeepSeek-V4-Flash W4A16+FP8とMTP自己推測:2x RTX PRO 6000 Max-Qで毎秒85トークン

DeepSeek-V4-FlashをW4A16+FP8に量子化し、MTPヘッドを後付けしたパッチ済みvLLMを使用して、2× RTX PRO 6000 Max-Q上で524kコンテキストにおいて85.52 tok/sを達成(ベースラインの52.85 tok/sから向上)。

OpenClawRadar
どのAIモデルを使うべきか尋ねるのはやめよう:タスクをHaiku、Sonnet、Opusの階層に振り分けよう
Guides

どのAIモデルを使うべきか尋ねるのはやめよう:タスクをHaiku、Sonnet、Opusの階層に振り分けよう

タスクタイプごとに少なくとも3つのモデルを使い分けよう。読書・要約にはHaikuクラス、コード作成にはSonnetクラス、複数ファイルのリファクタリングやデバッグにはOpusクラスのみを使用する。あるユーザーの設定では、タスクの40%を安価なモデル、35%を中級、25%を最先端のモデルに振り分け、月額約30~40ドルかかっている。

OpenClawRadar
OpenClawのプロンプト肥大化と応答ループの遅延を修正
Guides

OpenClawのプロンプト肥大化と応答ループの遅延を修正

2026.4.26以降、長い遅延が発生しているユーザーは、コンテキストの肥大化を減らすことでパフォーマンスを取り戻せます。常に注入されるファイルをトリミングし、表示スキルを制限し、メインチャットに大量のツール出力を貼り付けないようにしましょう。

OpenClawRadar