Omnicoder-9B Bewertung: Geschwindigkeit vs. Tool-Aufruf-Probleme

Technische Übersicht

Omnicoder-9B ist ein auf Codierung spezialisiertes Modell, das von Tesslate entwickelt wurde und auf der Qwen 3.5-Architektur basiert. Es wurde auf Basis von Qwen3.5 9B mit Ausgaben mehrerer Modelle feinabgestimmt, darunter Opus 4.6, GPT 5.4, GPT 5.3 Codex und Gemini 3.1 Pro.

Leistungsmerkmale

Das Modell zeigt starke Leistung auf mittlerer Hardware. Mit 12 GB VRAM berichten Nutzer von einer konsistenten Token-Erzeugung von 15 Token/Sekunde, selbst bei einer Kontextgröße von 100k. Die Prompt-Verarbeitung ist mit etwa 265 Token/Sekunde bemerkenswert schnell. Das Modell läuft, ohne Systeme zum Absturz zu bringen oder Leistungseinbußen zu verursachen.

Einschränkungen und Probleme

Trotz der Geschwindigkeitsvorteile zeigt Omnicoder-9B mehrere Einschränkungen in praktischen Codierungsszenarien:

Konnte keinen vollständigen Super-Mario-Klon in einer eigenständigen HTML-Datei mit einem One-Shot-Prompt erzeugen
Erlebte Fehler bei Werkzeugaufrufen mit MCP-Servern, was zu MCP-Fehlern während des Datenabrufs führte
Probleme bei der Ausführung von Schreib-Werkzeugaufrufen von Claude Code, wobei dies Kompatibilitätsfaktoren betreffen könnte

IDE-Integrationstests

Tests in Entwicklungsumgebungen zeigten gemischte Ergebnisse:

In LM Studio mit Roo Code: Es kam zu Unterbrechungen, wenn die Token-Größe auf 4k anstieg, was jedoch eher ein Integrationsproblem als ein modellspezifisches zu sein scheint
Das Modell aktualisierte oder schrieb erfolgreich kleine Skripte mit Token-Größen zwischen 2-3k
API-Anfragen für Token über 4k schlugen fehl, ohne Fehlermeldungen
In Claude Code: Die Token-Erzeugung fühlte sich langsamer an im Vergleich zu Roo Code, und das Modell konnte Schreib-Werkzeugaufrufe nach der Ausgabeerzeugung nicht ausführen

Der Nutzer merkt an, dass Roo Code die effektivste Erweiterung für lokale LLMs unter Continue und anderen getesteten Optionen war.

📖 Read the full source: r/LocalLLaMA