llama.cpp로 OpenClaw 배포: GEEKOM IT15 Intel Arc 가속 가이드

배포 아키텍처 및 주요 변경 사항

이 가이드는 OpenClaw의 게이트웨이(포트 18789)가 기본 Ollama 서버(포트 11434) 대신 수동으로 관리되는 llama-server(포트 8080)에 연결되는 배포 방식을 설명합니다. 목표는 SYCL을 통해 Intel Arc GPU 가속을 사용하여 로컬 Qwen3-8B 모델을 실행하는 것입니다.

디버깅 및 해결 방법

이 과정에는 여러 구성 충돌을 해결하는 작업이 포함되었습니다:

문제 1: 지원되지 않는 mcpServers 구성: OpenClaw는 mcpServers 구성 키를 지원하지 않습니다. 해결책은 openclaw.json에서 이 섹션을 제거하고 배치 파일을 사용하여 llama-server를 수동으로 시작하며, 해당 시작 로직을 Python 코드에 통합하는 것이었습니다.
문제 2: 세션 캐시 충돌: 캐시된 Feishu 채널 세션이 새로운 전역 구성을 재정의하여 Ollama API 오류를 발생시켰습니다. 이는 세션 캐시 파일을 삭제하여 해결했습니다: del "C:\Users\JiugeAItest\.openclaw\agents\main\sessions\sessions.json".
문제 3: 불충분한 컨텍스트 길이: 기본 llama-server 컨텍스트인 4096 토큰은 긴 대화에서 오류를 일으켰습니다. 이는 서버를 -c 32768로 시작하고 OpenClaw 구성에서 contextWindow: 32768을 설정하여 해결했습니다.

배포 단계

이 설정은 GEEKOM IT15의 특정 디렉토리 구조를 사용합니다:

E:\Workspace_AI\Buildup_OpenClow
├── llama-b8245-bin-win-sycl-x64\ # llama.cpp SYCL 버전
│   ├── llama-server.exe
│   └── ... (DLLs)
├── models\Qwen3-8B-GGUF\
│   └── Qwen3-8B-Q4_K_M.gguf # 모델 파일
└── start_openclaw_with_llamacpp.bat # 시작 스크립트

참고: Qwen3-8B-Q4_K_M.gguf 모델은 llama.cpp 버전 b8245와 호환성이 확인되었습니다. Qwen3.5 모델은 rope.dimension_sections 길이 불일치로 인해 이 버전과 호환되지 않습니다.

OpenClaw 구성

주요 구성 변경은 C:\Users\<사용자명>\.openclaw\openclaw.json에 있습니다. 모델 제공자를 ollama에서 llama-cpp로 전환합니다:

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "llama-cpp/qwen3-8b"
      }
    }
  },
  "models": {
    "providers": {
      "ollama": { ... },
      "llama-cpp": {
        "api": "openai-completions",
        "apiKey": "llama-cpp-local",
        "baseUrl": "http://127.0.0.1:8080/v1",
        "models": [
          {
            "contextWindow": 32768,
            "id": "qwen3-8b",
            "name": "qwen3-8b",
            ...
          }
        ]
      }
    }
  }
}

이 가이드는 또한 매개변수 참조, 문제 회피 가이드, 문제 해결, 필요한 경우 Ollama로 다시 전환하는 방법에 대한 섹션을 포함합니다.

📖 전체 소스 읽기: r/openclaw