OmniCoder-9B : Performances codage agentique sur 8 Go VRAM

Résultats de performance du test d'OmniCoder-9B avec OpenCode

Un utilisateur sur r/LocalLLaMA a rapporté avoir testé OmniCoder-9B, une version affinée de Qwen3.5-9B entraînée sur des traces Opus, et a constaté qu'il performait bien pour des tâches de codage agentique sur des systèmes avec une VRAM limitée. Le modèle est disponible sur Hugging Face à l'adresse Tesslate/OmniCoder-9B.

Configuration technique et paramètres

L'utilisateur a exécuté la quantification GGUF Q4_K_M en utilisant ik_llama avec la commande suivante :

ik_llama.cpp\build\bin\Release\llama-server.exe -m models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf -ngl 999 -fa 1 -b 2048 -ub 512 -t 8 -c 100000 -ctk f16 -ctv q4_0 --temp 0.4 --top-p 0.95 --top-k 20 --presence-penalty 0.0 --jinja --ctx-checkpoints 0

Ils ont atteint environ 40 tokens par seconde avec cette configuration. L'utilisateur a noté que la quantification Q5_KS avec une longueur de contexte de 64 000 offre des vitesses similaires.

Configuration d'OpenCode

La configuration d'OpenCode utilisée pour le test :

"local": { "models": { "/models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf": { "interleaved": { "field": "reasoning_content" }, "limit": { "context": 100000, "output": 32000 }, "name": "omnicoder-9b-q4_k_m", "reasoning": true, "temperature": true, "tool_call": true } }, "npm": "@ai-sdk/openai-compatible", "options": { "baseURL": "http://localhost:8080/v1" } }

L'utilisateur a mentionné un bug potentiel causant un retraitement complet des prompts qu'il est en train d'étudier.

Contexte et comparaison

Le test a été motivé par des préoccupations concernant les restrictions de quotas et les changements de tarification dans les outils commerciaux d'IA pour le codage. L'utilisateur a spécifiquement mentionné disposer de 8 Go de VRAM, ce qui limite généralement la capacité à exécuter des modèles open-source performants à de bonnes vitesses pour le codage agentique. Ils ont noté que bien que les modèles MOE puissent offrir de meilleures performances, leurs vitesses sont nettement plus lentes.

📖 Read the full source: r/LocalLLaMA

OmniCoder-9B affiné démontre de solides performances pour le codage agentique sur des systèmes dotés de 8 Go de VRAM.

Résultats de performance du test d'OmniCoder-9B avec OpenCode

Configuration technique et paramètres

Configuration d'OpenCode

Contexte et comparaison

👀 See Also

Marmy : Un Framework Auto-Hébergé pour Gérer à Distance des Agents de Codage IA

Compétence de codage Karpathy réécrite pour le plan gratuit, débloque la discipline de codage Claude sans Pro

Construction d'un agent de codage pour un contexte de 8k : répartition planificateur/exécuteur, budgétisation des jetons et exécution parallèle

Jan Ajoute l'Installation en Un Clic d'OpenClaw avec l'Intégration du Modèle de Base Jan-v3