Lokales Ausführen von OmniCoder-9B mit llama.cpp-Konfigurationsdetails

✍️ OpenClawRadar📅 Veröffentlicht: 14. März 2026🔗 Source
Lokales Ausführen von OmniCoder-9B mit llama.cpp-Konfigurationsdetails
Ad

Hardware- und Modell-Setup

Das Setup verwendet Mittelklasse-Hardware: AMD Ryzen 9 5900X CPU (12 Threads für Inferenz verwendet), 62 GB DDR4 RAM, NVIDIA RTX 3080 mit 10 GB VRAM, NVMe SSD und Ubuntu 22.04 auf einem Remote-Server.

Das Modell ist OmniCoder-9B, basierend auf Qwen3.5-9B, feinabgestimmt auf 425k+ Codierungsagenten-Trajektorien von Tesslate. Es verwendet Q6_K-Quantisierung (6,85 GB Dateigröße) mit 128K Token-Kontextfenster, bezogen von HuggingFace.

llama.cpp-Konfiguration

Das Modell läuft über llama.cpp-Server mit diesen spezifischen Flags:

llama-server \
--model /home/openclaw/models/omnicoder-9b/omnicoder-9b-q6_k.gguf \
--host 0.0.0.0 --port 8080 \
--ctx-size 131072 \
--n-gpu-layers 99 \
--cache-type-k q8_0 \
--cache-type-v q4_0 \
--threads 12 \
--batch-size 128 \
--flash-attn on \
--temp 0.4 \
--top-k 20 \
--top-p 0.95 \
--jinja \
--reasoning-budget 0

Wichtige Parameter erklärt:

  • --ctx-size 131072: 128K-Kontextfenster für große Codebasen
  • --n-gpu-layers 99: Alle Schichten auf die GPU auslagern
  • --cache-type-k q8_0 --cache-type-v q4_0: Komprimierter KV-Cache, um 128K Kontext in 10 GB VRAM unterzubringen
  • --threads 12: Entspricht physischen Kernen (nicht Hyperthreads)
  • --flash-attn on: Schnellere Attention-Berechnung
  • --reasoning-budget 0: Deaktiviert die Kettenfolge-Ausgabe im reasoning_content-Feld, sodass das Modell direkt Code ausgibt
Ad

Leistung und Tests

Leistungsmetriken: Prompt-Auswertung bei ~300 Token/s, Generierung bei ~80-90 Token/s, VRAM-Nutzung ~8,5 GB/10 GB, Latenz 1-5 Sekunden für typische Codierungsaufgaben.

Die Tests wurden von Agent Zero durchgeführt, einem autonomen Agenten-Framework, das GLM-5 als Haupt-„Gehirn“ verwendet. Agent Zero entdeckte das --reasoning-budget 0-Flag, SSH'd in den Remote-Server, aktualisierte den systemd-Dienst, erstellte Benchmark-Skripte von Grund auf, führte mehrere Benchmarks durch (HumanEval base, HumanEval Pro, MBPP, MultiPL-E) und optimierte das Prompt-Engineering iterativ.

Benchmark-Ergebnisse

Benchmark-Ergebnisse im Vergleich zu offiziellen Angaben:

  • HumanEval base: Offiziell 92,7 %, Lauf 1: 100 %, Lauf 2: 95 %, Lauf 3: 95 %, Durchschnitt: 96,7 %
  • HumanEval Pro: Offiziell 70,1 %, Lauf 1: 70 %, Durchschnitt: 70 %

Der durchschnittliche HumanEval base-Score von 96,7 % übertrifft die offiziellen 92,7 %, während HumanEval Pro genau bei 70 % liegt.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Zwei erforderliche Korrekturen für "write_file nicht gefunden" in Gemini CLI in OpenClaw
Anleitungen

Zwei erforderliche Korrekturen für "write_file nicht gefunden" in Gemini CLI in OpenClaw

OpenClaw-Agenten, die google-gemini-cli verwenden, können keine Dateien schreiben (write_file / default_api_write_file fehlt) aufgrund eines falschen tools.profile und fehlendem --approval-mode auto_edit-Flag im Unterprozess. Fix: Setzen Sie das Profil auf full und injizieren Sie das Flag über die cliBackends-Konfiguration.

OpenClawRadar
Claude Code LSP Einrichtungsanleitung: Strukturelles Code-Verständnis
Anleitungen

Claude Code LSP Einrichtungsanleitung: Strukturelles Code-Verständnis

Ein Reddit-Post beschreibt, wie man Claude Code so konfiguriert, dass er das Language Server Protocol für strukturelles Code-Verständnis anstelle von Textabgleich verwendet, wodurch Abfragezeiten von 30-60 Sekunden auf ~50ms reduziert werden, mit Funktionen wie Gehe-zur-Definition, Finde-Referenzen und Aufrufhierarchie.

OpenClawRadar
Das Beste aus Claude herausholen: Der Workflow eines Datenanalysten mit Cowork und Claude Code
Anleitungen

Das Beste aus Claude herausholen: Der Workflow eines Datenanalysten mit Cowork und Claude Code

Ein Datenanalyst ohne Programmierkenntnisse erzählt, wie er Cowork für die durchgängige Automatisierung und Claude Code für schwere Aufgaben nutzt – er baut ein Lead-Generierungs-Tool mit der Google Places API, ein Betrugs-Dashboard und automatisierte Social-Media-Beiträge.

OpenClawRadar
Praktische Einrichtungs- und Konfigurationsanleitung für den selbst gehosteten OpenClaw KI-Agenten
Anleitungen

Praktische Einrichtungs- und Konfigurationsanleitung für den selbst gehosteten OpenClaw KI-Agenten

OpenClaw ist ein selbst gehosteter KI-Agent, der sich in Messaging-Apps integriert und über ein dateibasiertes System ein dauerhaftes Gedächtnis bewahrt. Wichtige Einrichtungsempfehlungen umfassen: mit der Terminaloberfläche beginnen, zunächst nur einen Messaging-Kanal verbinden und die SOUL.md-Datei korrekt für Persönlichkeit und Sicherheitsregeln konfigurieren.

OpenClawRadar