OmniCoder-9B affiné démontre de solides performances pour le codage agentique sur des systèmes dotés de 8 Go de VRAM.

Résultats de performance du test d'OmniCoder-9B avec OpenCode
Un utilisateur sur r/LocalLLaMA a rapporté avoir testé OmniCoder-9B, une version affinée de Qwen3.5-9B entraînée sur des traces Opus, et a constaté qu'il performait bien pour des tâches de codage agentique sur des systèmes avec une VRAM limitée. Le modèle est disponible sur Hugging Face à l'adresse Tesslate/OmniCoder-9B.
Configuration technique et paramètres
L'utilisateur a exécuté la quantification GGUF Q4_K_M en utilisant ik_llama avec la commande suivante :
ik_llama.cpp\build\bin\Release\llama-server.exe -m models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf -ngl 999 -fa 1 -b 2048 -ub 512 -t 8 -c 100000 -ctk f16 -ctv q4_0 --temp 0.4 --top-p 0.95 --top-k 20 --presence-penalty 0.0 --jinja --ctx-checkpoints 0
Ils ont atteint environ 40 tokens par seconde avec cette configuration. L'utilisateur a noté que la quantification Q5_KS avec une longueur de contexte de 64 000 offre des vitesses similaires.
Configuration d'OpenCode
La configuration d'OpenCode utilisée pour le test :
"local": { "models": { "/models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf": { "interleaved": { "field": "reasoning_content" }, "limit": { "context": 100000, "output": 32000 }, "name": "omnicoder-9b-q4_k_m", "reasoning": true, "temperature": true, "tool_call": true } }, "npm": "@ai-sdk/openai-compatible", "options": { "baseURL": "http://localhost:8080/v1" } }L'utilisateur a mentionné un bug potentiel causant un retraitement complet des prompts qu'il est en train d'étudier.
Contexte et comparaison
Le test a été motivé par des préoccupations concernant les restrictions de quotas et les changements de tarification dans les outils commerciaux d'IA pour le codage. L'utilisateur a spécifiquement mentionné disposer de 8 Go de VRAM, ce qui limite généralement la capacité à exécuter des modèles open-source performants à de bonnes vitesses pour le codage agentique. Ils ont noté que bien que les modèles MOE puissent offrir de meilleures performances, leurs vitesses sont nettement plus lentes.
📖 Read the full source: r/LocalLLaMA
👀 See Also

La Compétence Claude Permet des Ajustements Granulaires de la Personnalité avec des Variables Quantifiées
Une nouvelle compétence Claude permet aux développeurs d'effectuer des ajustements quantifiés sur 32 groupes de traits de personnalité couvrant 120 variables définies par Claude, avec des profils au niveau du groupe montrant des métriques comme la Verbosité (60), l'Agréabilité (55) et le Sarcasme & l'Impertinence (17). La compétence persiste à travers les conversations et inclut une commande de publication pour les instructions personnalisées.

Memento Vault : Outil Local pour un Contexte Persistant dans les Sessions Code Claude
Memento Vault est un ensemble de crochets qui capture automatiquement les transcriptions de session, les évalue et stocke des notes atomiques dans un dépôt git local. Il offre une récupération sans coût via une recherche BM25 + vectorielle avec une latence moyenne de 472 ms et injecte un contexte pertinent au début de la session, à chaque invite et lors de la lecture de fichiers.

Claude Code réimplémenté en open-source modifié pour la compatibilité avec les modèles locaux
Un développeur a corrigé la réimplémentation open-source de Claude Code pour la faire fonctionner avec Ollama et les modèles locaux en supprimant les dépendances clientes codées en dur d'Anthropic. L'interface CLI détecte maintenant automatiquement les fournisseurs à partir des noms de modèles et des variables d'environnement.

L'application de bureau Claude permet la collaboration entre IA via des documents Google partagés
Les utilisateurs ont réussi à mettre en place une communication de Claude à Claude en utilisant la nouvelle fonction de collaboration dans l'application de bureau, avec deux agents lisant et écrivant dans un Google Doc partagé. Le test a impliqué cinq tours de dialogue questions-réponses entre les agents d'IA.