llama.cppでQwen3-8Bを実行：GEEKOM IT15でOpenClawデプロイガイド

デプロイメントアーキテクチャと主な変更点

このガイドでは、OpenClawのゲートウェイ（ポート18789）がデフォルトのOllamaサーバー（ポート11434）ではなく、手動で管理するllama-server（ポート8080）に接続するデプロイメントについて説明します。目的は、SYCLを介したIntel Arc GPUアクセラレーションを使用してローカルのQwen3-8Bモデルを実行することです。

デバッグと解決策

このプロセスでは、いくつかの設定の競合を解決する必要がありました：

問題1: サポートされていないmcpServers設定: OpenClawはmcpServers設定キーをサポートしていません。解決策は、openclaw.jsonからこのセクションを削除し、バッチファイルを使用してllama-serverを手動で起動し、その起動ロジックをPythonコードに統合することでした。
問題2: セッションキャッシュの競合: キャッシュされたFeishuチャネルセッションが新しいグローバル設定を上書きし、Ollama APIエラーを引き起こしていました。これは、セッションキャッシュファイルを削除することで修正されました：del "C:\Users\JiugeAItest\.openclaw\agents\main\sessions\sessions.json"。
問題3: コンテキスト長の不足: デフォルトのllama-serverのコンテキスト長4096トークンでは、長い会話でエラーが発生しました。これは、サーバーを-c 32768で起動し、OpenClaw設定でcontextWindow: 32768を設定することで解決されました。

デプロイメント手順

このセットアップでは、GEEKOM IT15上の特定のディレクトリ構造を使用しています：

E:\Workspace_AI\Buildup_OpenClow
├── llama-b8245-bin-win-sycl-x64\ # llama.cpp SYCLバージョン
│   ├── llama-server.exe
│   └── ... (DLLs)
├── models\Qwen3-8B-GGUF\
│   └── Qwen3-8B-Q4_K_M.gguf # モデルファイル
└── start_openclaw_with_llamacpp.bat # 起動スクリプト

注意: Qwen3-8B-Q4_K_M.ggufモデルは、llama.cppバージョンb8245と互換性があることが確認されています。Qwen3.5モデルは、rope.dimension_sectionsの長さの不一致により、このバージョンと互換性がありません。

OpenClaw設定

主な設定変更はC:\Users\<ユーザー名>\.openclaw\openclaw.jsonにあります。モデルプロバイダーはollamaからllama-cppに切り替えられています：

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "llama-cpp/qwen3-8b"
      }
    }
  },
  "models": {
    "providers": {
      "ollama": { ... },
      "llama-cpp": {
        "api": "openai-completions",
        "apiKey": "llama-cpp-local",
        "baseUrl": "http://127.0.0.1:8080/v1",
        "models": [
          {
            "contextWindow": 32768,
            "id": "qwen3-8b",
            "name": "qwen3-8b",
            ...
          }
        ]
      }
    }
  }
}

このガイドには、パラメータリファレンス、落とし穴回避ガイド、トラブルシューティング、必要に応じてOllamaに戻すための手順などのセクションも含まれています。

📖 完全なソースを読む： r/openclaw