OmniCoder-9B Lokal Ausführen: 96,7% HumanEval mit llama.cpp

Hardware- und Modell-Setup

Das Setup verwendet Mittelklasse-Hardware: AMD Ryzen 9 5900X CPU (12 Threads für Inferenz verwendet), 62 GB DDR4 RAM, NVIDIA RTX 3080 mit 10 GB VRAM, NVMe SSD und Ubuntu 22.04 auf einem Remote-Server.

Das Modell ist OmniCoder-9B, basierend auf Qwen3.5-9B, feinabgestimmt auf 425k+ Codierungsagenten-Trajektorien von Tesslate. Es verwendet Q6_K-Quantisierung (6,85 GB Dateigröße) mit 128K Token-Kontextfenster, bezogen von HuggingFace.

llama.cpp-Konfiguration

Das Modell läuft über llama.cpp-Server mit diesen spezifischen Flags:

llama-server \
--model /home/openclaw/models/omnicoder-9b/omnicoder-9b-q6_k.gguf \
--host 0.0.0.0 --port 8080 \
--ctx-size 131072 \
--n-gpu-layers 99 \
--cache-type-k q8_0 \
--cache-type-v q4_0 \
--threads 12 \
--batch-size 128 \
--flash-attn on \
--temp 0.4 \
--top-k 20 \
--top-p 0.95 \
--jinja \
--reasoning-budget 0

Wichtige Parameter erklärt:

--ctx-size 131072: 128K-Kontextfenster für große Codebasen
--n-gpu-layers 99: Alle Schichten auf die GPU auslagern
--cache-type-k q8_0 --cache-type-v q4_0: Komprimierter KV-Cache, um 128K Kontext in 10 GB VRAM unterzubringen
--threads 12: Entspricht physischen Kernen (nicht Hyperthreads)
--flash-attn on: Schnellere Attention-Berechnung
--reasoning-budget 0: Deaktiviert die Kettenfolge-Ausgabe im reasoning_content-Feld, sodass das Modell direkt Code ausgibt

Leistung und Tests

Leistungsmetriken: Prompt-Auswertung bei ~300 Token/s, Generierung bei ~80-90 Token/s, VRAM-Nutzung ~8,5 GB/10 GB, Latenz 1-5 Sekunden für typische Codierungsaufgaben.

Die Tests wurden von Agent Zero durchgeführt, einem autonomen Agenten-Framework, das GLM-5 als Haupt-„Gehirn“ verwendet. Agent Zero entdeckte das --reasoning-budget 0-Flag, SSH'd in den Remote-Server, aktualisierte den systemd-Dienst, erstellte Benchmark-Skripte von Grund auf, führte mehrere Benchmarks durch (HumanEval base, HumanEval Pro, MBPP, MultiPL-E) und optimierte das Prompt-Engineering iterativ.

Benchmark-Ergebnisse

Benchmark-Ergebnisse im Vergleich zu offiziellen Angaben:

HumanEval base: Offiziell 92,7 %, Lauf 1: 100 %, Lauf 2: 95 %, Lauf 3: 95 %, Durchschnitt: 96,7 %
HumanEval Pro: Offiziell 70,1 %, Lauf 1: 70 %, Durchschnitt: 70 %

Der durchschnittliche HumanEval base-Score von 96,7 % übertrifft die offiziellen 92,7 %, während HumanEval Pro genau bei 70 % liegt.

📖 Read the full source: r/LocalLLaMA

Lokales Ausführen von OmniCoder-9B mit llama.cpp-Konfigurationsdetails

Hardware- und Modell-Setup

llama.cpp-Konfiguration

Leistung und Tests

Benchmark-Ergebnisse

👀 Siehe auch

VPS vs Dedizierte Maschine: Wo OpenClaw Ausführen

CLAUDE.md-Dateien sind oft für Entwickler strukturiert, nicht für KI-Modelle – warum das wichtig ist

Behebung von Autonomieproblemen des OpenClaw-Agenten: Skill-Dateien, Tool-Auswahl und Cron-Einrichtung

Zwei $0 OpenClaw-Einrichtungen mit kostenlosen Cloud-Modellen oder lokalem Ollama