OmniCoder-9B Fine-Tuning: 40+ Tokens/s auf 8GB VRAM

Leistungsergebnisse aus dem Test von OmniCoder-9B mit OpenCode

Ein Nutzer auf r/LocalLLaMA berichtete über Tests mit OmniCoder-9B, einer Feinabstimmung von Qwen3.5-9B, die auf Opus-Traces trainiert wurde, und stellte fest, dass es sich für agentenbasiertes Codieren auf Systemen mit begrenztem VRAM gut eignet. Das Modell ist auf Hugging Face unter Tesslate/OmniCoder-9B verfügbar.

Technisches Setup und Konfiguration

Der Nutzer führte die Q4_K_M GGUF-Quantisierung mit ik_llama mit folgendem Befehl aus:

ik_llama.cpp\build\bin\Release\llama-server.exe -m models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf -ngl 999 -fa 1 -b 2048 -ub 512 -t 8 -c 100000 -ctk f16 -ctv q4_0 --temp 0.4 --top-p 0.95 --top-k 20 --presence-penalty 0.0 --jinja --ctx-checkpoints 0

Mit dieser Konfiguration erreichten sie etwa 40 Tokens pro Sekunde. Der Nutzer merkte an, dass die Q5_KS-Quantisierung mit einer Kontextlänge von 64.000 ähnliche Geschwindigkeiten bietet.

OpenCode-Konfiguration

Die für den Test verwendete OpenCode-Konfiguration:

"local": { "models": { "/models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf": { "interleaved": { "field": "reasoning_content" }, "limit": { "context": 100000, "output": 32000 }, "name": "omnicoder-9b-q4_k_m", "reasoning": true, "temperature": true, "tool_call": true } }, "npm": "@ai-sdk/openai-compatible", "options": { "baseURL": "http://localhost:8080/v1" } }

Der Nutzer erwähnte einen potenziellen Fehler, der eine vollständige Neuverarbeitung des Prompts verursacht, den er untersucht.

Kontext und Vergleich

Die Tests wurden durch Bedenken hinsichtlich Kontingentbeschränkungen und Preisänderungen bei kommerziellen KI-Codierungstools motiviert. Der Nutzer erwähnte speziell, dass er über 8GB VRAM verfügt, was typischerweise die Fähigkeit einschränkt, leistungsfähige Open-Source-Modelle für agentenbasiertes Codieren mit guten Geschwindigkeiten auszuführen. Sie stellten fest, dass MOE-Modelle zwar eine bessere Leistung bieten könnten, ihre Geschwindigkeiten jedoch deutlich langsamer sind.

📖 Read the full source: r/LocalLLaMA

OmniCoder-9B-Fine-Tuning zeigt eine starke Leistung für agentenbasiertes Codieren auf Systemen mit 8 GB VRAM.

Leistungsergebnisse aus dem Test von OmniCoder-9B mit OpenCode

Technisches Setup und Konfiguration

OpenCode-Konfiguration

Kontext und Vergleich

👀 Siehe auch

Cowork Chrome-Erweiterung automatisiert die Entfernung persönlicher Daten von Datenmaklern

OpenClaw Kubernetes Operator mit integrierter Ollama-Unterstützung

Prompt-Master: Claude-Fähigkeit zur Erzeugung präziser KI-Tool-Prompts

Node Control: Echtzeit-Multiplayer-.io-Spiel, vollständig entwickelt mit Claude 4.6 und 4.7