Anleitung: Bereitstellung von OpenClaw mit llama.cpp auf dem GEEKOM IT15 Mini-PC

Bereitstellungsarchitektur und wesentliche Änderungen
Diese Anleitung beschreibt eine Bereitstellung, bei der das Gateway von OpenClaw (Port 18789) mit einem manuell verwalteten llama-server (Port 8080) verbunden wird, anstatt mit dem standardmäßigen Ollama-Server (Port 11434). Das Ziel ist es, ein lokales Qwen3-8B-Modell mithilfe von Intel Arc GPU-Beschleunigung über SYCL auszuführen.
Fehlersuche und Lösungen
Der Prozess umfasste die Lösung mehrerer Konfigurationskonflikte:
- Problem 1: Nicht unterstützte mcpServers-Konfiguration: OpenClaw unterstützt den Konfigurationsschlüssel
mcpServersnicht. Die Lösung bestand darin, diesen Abschnitt ausopenclaw.jsonzu entfernen und Batch-Dateien zu verwenden, umllama-servermanuell zu starten und dessen Startlogik in Python-Code zu integrieren. - Problem 2: Sitzungscache-Konflikt: Ein zwischengespeicherter Feishu-Kanal-Sitzung überschrieb die neue globale Konfiguration und verursachte Ollama-API-Fehler. Dies wurde behoben, indem die Sitzungscache-Datei gelöscht wurde:
del "C:\Users\JiugeAItest\.openclaw\agents\main\sessions\sessions.json". - Problem 3: Unzureichende Kontextlänge: Der Standardkontext von
llama-servermit 4096 Token verursachte Fehler bei längeren Gesprächen. Dies wurde gelöst, indem der Server mit-c 32768gestartet undcontextWindow: 32768in der OpenClaw-Konfiguration gesetzt wurde.
Bereitstellungsschritte
Das Setup verwendet eine spezifische Verzeichnisstruktur auf dem GEEKOM IT15:
E:\Workspace_AI\Buildup_OpenClow ├── llama-b8245-bin-win-sycl-x64\ # llama.cpp SYCL-Version │ ├── llama-server.exe │ └── ... (DLLs) ├── models\Qwen3-8B-GGUF\ │ └── Qwen3-8B-Q4_K_M.gguf # Modelldatei └── start_openclaw_with_llamacpp.bat # Startskript
Hinweis: Das Qwen3-8B-Q4_K_M.gguf-Modell ist mit der llama.cpp-Version b8245 kompatibel. Qwen3.5-Modelle sind mit dieser Version aufgrund einer Längenabweichung bei rope.dimension_sections nicht kompatibel.
OpenClaw-Konfiguration
Die primäre Konfigurationsänderung befindet sich in C:\Users\<Benutzername>\.openclaw\openclaw.json. Der Modellanbieter wird von ollama auf llama-cpp umgestellt:
{
"agents": {
"defaults": {
"model": {
"primary": "llama-cpp/qwen3-8b"
}
}
},
"models": {
"providers": {
"ollama": { ... },
"llama-cpp": {
"api": "openai-completions",
"apiKey": "llama-cpp-local",
"baseUrl": "http://127.0.0.1:8080/v1",
"models": [
{
"contextWindow": 32768,
"id": "qwen3-8b",
"name": "qwen3-8b",
...
}
]
}
}
}
}Die Anleitung enthält auch Abschnitte zu Parameterreferenzen, einem Leitfaden zur Vermeidung von Fallstricken, Fehlerbehebung und Anweisungen für den Wechsel zurück zu Ollama, falls erforderlich.
📖 Quelle vollständig lesen: r/openclaw
👀 Siehe auch

Aufteilung des Agentenkontexts in drei Ebenen zur Lösung des 700-Zeilen-Monolithen-Problems
Ein Team, das ein 6-Agenten-autonomes System aufbaut, löste das Problem des aufgeblähten Kontextdateien-Volumens, indem es den Agentenkontext in drei Ebenen aufteilte, basierend auf der Art der Anforderung und der Änderungshäufigkeit: CLAUDE.md für die Identität, BRIEFING.md für die Mission und PLAYBOOK.md für den Betrieb. Dieser Ansatz verhindert stille Fehler durch Argumentgrenzen und macht die Bearbeitung vorhersehbar.

Camoufox Cookie Injection: Reddit durchsuchen als du selbst während dein Agent arbeitet
Detaillierte Anleitung zur Umgehung der Reddit-Bot-Erkennung durch Extrahieren von Firefox-Cookies und Injektion in Camoufox via Playwright.

Wie man OpenClaw-Agenten kostenlos mit Cloud-APIs oder lokalen Modellen ausführt
Eine detaillierte Anleitung erklärt, wie man OpenClaw-Agenten ohne Kosten ausführen kann, indem man kostenlose Cloud-Tarife von OpenRouter, Gemini und Groq nutzt oder lokale Modelle über Ollama mit spezifischen Konfigurationstipps betreibt, um häufige Fehler zu vermeiden.

Qwen3.5-397B MoE läuft auf 14 GB RAM dank geladenen Expertenseiten auf dem M1 Ultra
Die Paged-MoE-Engine hält nur 20 Experten im Arbeitsspeicher und lädt den Rest bei Bedarf von der SSD nach – damit läuft ein 209 GB großes 397B-Modell auf einem 64 GB Mac Studio mit 1,59 tok/s und 14 GB RAM-Spitzenlast. Enthält Benchmarks für kleinere Modelle.