OmniCoder-9B ローカル実行: llama.cpp設定と96.7% HumanEval

ハードウェルとモデル設定

この設定では中程度のハードウェルを使用しています：AMD Ryzen 9 5900X CPU（推論に12スレッド使用）、62GB DDR4 RAM、NVIDIA RTX 3080（10GB VRAM）、NVMe SSD、リモートサーバー上のUbuntu 22.04。

モデルはOmniCoder-9Bで、Qwen3.5-9Bをベースに、Tesslateによる425k以上のコーディングエージェント軌跡でファインチューニングされています。Q6_K量子化（ファイルサイズ6.85GB）を使用し、128Kトークンのコンテキストウィンドウを持ち、HuggingFaceから入手されています。

llama.cpp設定

モデルは以下の特定のフラグでllama.cppサーバーを介して実行されます：

llama-server \
--model /home/openclaw/models/omnicoder-9b/omnicoder-9b-q6_k.gguf \
--host 0.0.0.0 --port 8080 \
--ctx-size 131072 \
--n-gpu-layers 99 \
--cache-type-k q8_0 \
--cache-type-v q4_0 \
--threads 12 \
--batch-size 128 \
--flash-attn on \
--temp 0.4 \
--top-k 20 \
--top-p 0.95 \
--jinja \
--reasoning-budget 0

主要パラメータの説明：

--ctx-size 131072：大規模なコードベース用の128Kコンテキストウィンドウ
--n-gpu-layers 99：すべてのレイヤーをGPUにオフロード
--cache-type-k q8_0 --cache-type-v q4_0：圧縮KVキャッシュで10GB VRAM内に128Kコンテキストを収納
--threads 12：物理コア数に一致（ハイパースレッドではない）
--flash-attn on：高速なアテンション計算
--reasoning-budget 0：reasoning_contentフィールドでの連鎖思考出力を無効化し、モデルが直接コードを出力するようにする

パフォーマンスとテスト

パフォーマンス指標：プロンプト評価は約300トークン/秒、生成は約80-90トークン/秒、VRAM使用量は約8.5GB/10GB、典型的なコーディングタスクのレイテンシは1-5秒。

テストは、自律エージェントフレームワークであるAgent Zeroによって実施されました。Agent ZeroはGLM-5を主要な頭脳として使用し、--reasoning-budget 0フラグを発見し、リモートサーバーにSSH接続し、systemdサービスを更新し、ベンチマークスクリプトを一から作成し、複数のベンチマーク（HumanEval base、HumanEval Pro、MBPP、MultiPL-E）を実行し、プロンプトエンジニアリングを繰り返しました。