Exécuter OmniCoder-9B localement avec llama.cpp : configuration et gains

Configuration du matériel et du modèle

La configuration utilise du matériel d'entrée de gamme : processeur AMD Ryzen 9 5900X (12 threads utilisés pour l'inférence), 62 Go de RAM DDR4, NVIDIA RTX 3080 avec 10 Go de VRAM, SSD NVMe, et Ubuntu 22.04 sur un serveur distant.

Le modèle est OmniCoder-9B, basé sur Qwen3.5-9B, affiné sur plus de 425 000 trajectoires d'agents de codage par Tesslate. Il utilise la quantification Q6_K (taille de fichier de 6,85 Go) avec une fenêtre de contexte de 128 000 tokens, provenant de HuggingFace.

Configuration de llama.cpp

Le modèle s'exécute via le serveur llama.cpp avec ces drapeaux spécifiques :

llama-server \
--model /home/openclaw/models/omnicoder-9b/omnicoder-9b-q6_k.gguf \
--host 0.0.0.0 --port 8080 \
--ctx-size 131072 \
--n-gpu-layers 99 \
--cache-type-k q8_0 \
--cache-type-v q4_0 \
--threads 12 \
--batch-size 128 \
--flash-attn on \
--temp 0.4 \
--top-k 20 \
--top-p 0.95 \
--jinja \
--reasoning-budget 0

Paramètres clés expliqués :

--ctx-size 131072 : fenêtre de contexte de 128K pour les grandes bases de code
--n-gpu-layers 99 : décharger toutes les couches sur le GPU
--cache-type-k q8_0 --cache-type-v q4_0 : cache KV compressé pour adapter un contexte de 128K dans 10 Go de VRAM
--threads 12 : correspondre aux cœurs physiques (pas aux hyperthreads)
--flash-attn on : calcul d'attention plus rapide
--reasoning-budget 0 : désactive la sortie de raisonnement en chaîne dans le champ reasoning_content, faisant que le modèle produit directement du code

Performances et tests

Métriques de performance : évaluation des prompts à ~300 tokens/s, génération à ~80-90 tokens/s, utilisation de la VRAM ~8,5 Go/10 Go, latence de 1 à 5 secondes pour les tâches de codage typiques.

Les tests ont été menés par Agent Zero, un cadre d'agent autonome utilisant GLM-5 comme cerveau principal. Agent Zero a découvert le drapeau --reasoning-budget 0, s'est connecté en SSH au serveur distant, a mis à jour le service systemd, a créé des scripts de benchmark à partir de zéro, a exécuté plusieurs benchmarks (HumanEval base, HumanEval Pro, MBPP, MultiPL-E), et a itéré sur l'ingénierie des prompts.

Résultats des benchmarks

Résultats des benchmarks comparés aux affirmations officielles :

HumanEval base : Officiel 92,7 %, Exécution 1 : 100 %, Exécution 2 : 95 %, Exécution 3 : 95 %, Moyenne : 96,7 %
HumanEval Pro : Officiel 70,1 %, Exécution 1 : 70 %, Moyenne : 70 %

Le score moyen HumanEval base de 96,7 % dépasse le score officiel de 92,7 %, tandis que HumanEval Pro correspond exactement à 70 %.

📖 Read the full source: r/LocalLLaMA