OmniCoder-9B-Fine-Tuning zeigt eine starke Leistung für agentenbasiertes Codieren auf Systemen mit 8 GB VRAM.

Leistungsergebnisse aus dem Test von OmniCoder-9B mit OpenCode
Ein Nutzer auf r/LocalLLaMA berichtete über Tests mit OmniCoder-9B, einer Feinabstimmung von Qwen3.5-9B, die auf Opus-Traces trainiert wurde, und stellte fest, dass es sich für agentenbasiertes Codieren auf Systemen mit begrenztem VRAM gut eignet. Das Modell ist auf Hugging Face unter Tesslate/OmniCoder-9B verfügbar.
Technisches Setup und Konfiguration
Der Nutzer führte die Q4_K_M GGUF-Quantisierung mit ik_llama mit folgendem Befehl aus:
ik_llama.cpp\build\bin\Release\llama-server.exe -m models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf -ngl 999 -fa 1 -b 2048 -ub 512 -t 8 -c 100000 -ctk f16 -ctv q4_0 --temp 0.4 --top-p 0.95 --top-k 20 --presence-penalty 0.0 --jinja --ctx-checkpoints 0
Mit dieser Konfiguration erreichten sie etwa 40 Tokens pro Sekunde. Der Nutzer merkte an, dass die Q5_KS-Quantisierung mit einer Kontextlänge von 64.000 ähnliche Geschwindigkeiten bietet.
OpenCode-Konfiguration
Die für den Test verwendete OpenCode-Konfiguration:
"local": { "models": { "/models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf": { "interleaved": { "field": "reasoning_content" }, "limit": { "context": 100000, "output": 32000 }, "name": "omnicoder-9b-q4_k_m", "reasoning": true, "temperature": true, "tool_call": true } }, "npm": "@ai-sdk/openai-compatible", "options": { "baseURL": "http://localhost:8080/v1" } }Der Nutzer erwähnte einen potenziellen Fehler, der eine vollständige Neuverarbeitung des Prompts verursacht, den er untersucht.
Kontext und Vergleich
Die Tests wurden durch Bedenken hinsichtlich Kontingentbeschränkungen und Preisänderungen bei kommerziellen KI-Codierungstools motiviert. Der Nutzer erwähnte speziell, dass er über 8GB VRAM verfügt, was typischerweise die Fähigkeit einschränkt, leistungsfähige Open-Source-Modelle für agentenbasiertes Codieren mit guten Geschwindigkeiten auszuführen. Sie stellten fest, dass MOE-Modelle zwar eine bessere Leistung bieten könnten, ihre Geschwindigkeiten jedoch deutlich langsamer sind.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Cowork Chrome-Erweiterung automatisiert die Entfernung persönlicher Daten von Datenmaklern
Ein Reddit-Bericht zeigt, dass die Cowork Chrome-Erweiterung in Verbindung mit einem Gmail-Konto das Ausfüllen von Formularen, das Verfassen von E-Mails und die Überprüfung von Löschungsanträgen zur Entfernung personenbezogener Daten von großen Datenanbietern in nur wenigen Stunden automatisierte.

OpenClaw Kubernetes Operator mit integrierter Ollama-Unterstützung
Ein Community-Mitglied hat einen OpenClaw Kubernetes-Operator erstellt, der eingebettete Ollama-Unterstützung enthält und es KI-Agenten ermöglicht, mit lokalen Modellen im selben Namespace zu laufen. Das Setup umfasst Installationsbefehle, Konfigurationsdetails für lokale und Cloud-Ollama-Modelle sowie Anweisungen für den Dashboard-Zugriff.

Prompt-Master: Claude-Fähigkeit zur Erzeugung präziser KI-Tool-Prompts
Prompt-Master ist eine kostenlose Claude-Fähigkeit, die präzise Prompts für verschiedene KI-Tools schreibt, darunter Cursor, Claude Code, GPT, Midjourney, Kling und Eleven Labs. Das Tool hat über 600 Sterne auf GitHub erreicht und verarbeitet mehr als 4000 Zugriffe.

Node Control: Echtzeit-Multiplayer-.io-Spiel, vollständig entwickelt mit Claude 4.6 und 4.7
Ein Entwickler hat mit Claude 4.6 und 4.7 ein Live-Konkurrenz-Multiplayer-.io-Spiel, Node Control, erstellt. Es bietet server-autoritativen Netcode bei 60 Hz, Bereitstellung in 4 Regionen auf fly.io und eine neuronale Netzwerk-Ästhetik.