Application de l'Architecture de Claude Code aux Modèles Locaux 9B : Principales Découvertes et Optimisations

Configuration expérimentale et découverte clé
Le développeur a utilisé une RTX 5070 Ti (16 Go de VRAM) avec qwen3.5:9b via Ollama (6,6 Go) et le framework d'agent local OpenClaw. Après 18 tests et 10 optimisations, la découverte principale a été que qwen3.5:9b dispose d'appels d'outils structurés natifs, tandis que qwen2.5-coder:14b et qwen2.5:14b placent le JSON dans le champ de contenu au lieu d'utiliser de véritables appels d'outils, nécessitant un parsing supplémentaire.
Comparaison des performances
Comparaison des performances des modèles :
- qwen3.5:9b : Structure d'appels d'outils native, chaîne de réflexion activée, 39 tok/s
- qwen2.5-coder:14b : Appels d'outils défectueux (dans le champ de contenu), pas de chaîne de réflexion, ~30 tok/s
- qwen2.5:14b : Appels d'outils défectueux (dans le champ de contenu), pas de chaîne de réflexion, ~35 tok/s
10 optimisations issues de l'architecture de Claude Code
- Invite système structurée → +600 % de qualité de sortie (test A/B : 4 problèmes trouvés contre 25+)
- MicroCompact (compression des résultats d'outils) → 80-93 % de compression, 11 Ko réduits à 367 caractères
- Coupure forcée (transition exploration→production imposée) → Résout les boucles d'exploration où les modèles 9B restent bloqués à lire des fichiers sans produire de résultat
- think=false → Efficacité des tokens multipliée par 8-10, élimine la contamination linguistique
- Chargement différé de ToolSearch → -60 % d'espace d'invite (229 contre 568 tokens)
- Système de mémoire à quatre types (utilisateur/retour/projet/référence) → Réponses personnalisées
- Bifurcation du cache KV → Effet minimal sur un seul GPU (1,1x), nécessite vLLM
- Discipline d'écriture stricte → Vérifier avant de mettre à jour la mémoire, empêche la corruption de la mémoire
- Amorçage parallèle → Démarrage à froid 9 % plus rapide
- Suivi de rupture du cache → Ollama met en cache les invites identiques (182 ms→75 ms)
Découverte fondamentale : l'autodiscipline comme véritable plafond
La plus grande découverte a été que le véritable plafond pour les modèles 9B n'est pas la capacité de raisonnement ou la précision de l'utilisation des outils, mais l'autodiscipline — savoir quand arrêter d'explorer et commencer à produire un résultat. Sans coupure forcée, le modèle utilisait les 12 étapes pour lire des fichiers et produisait 0 octet de rapport. Avec la coupure forcée : 5 étapes de lecture + 1 étape d'écriture = rapport structuré de 6080 octets.
Ce que qwen3.5:9b peut réellement faire
- Lire des scripts bash de 800 lignes et trouver de vrais bugs (conditions de concurrence, opérations non atomiques) — 2 min
- Concevoir une architecture de système de retour de vente — document de 8,7 Ko en 2,5 min
- Construire un projet complet (calculatrice + tests + exécution des tests) — 28 secondes
- Exécution autonome en 10 étapes : écrire un scraper web → échec de pip install → trouver une solution de contournement → réessayer → tests réussis — zéro intervention humaine
- Pipeline complet de mini-usine : recherche → rédaction d'article → relecture → publication en HTML — 2,5 min
Performances du moteur complet
Les 10 optimisations ont été regroupées dans un seul moteur Python (~280 lignes). Résultats de la première exécution :
- Amorçage : 527 ms (mémoire parallèle + préchauffage du modèle)
- Exploration : 5 étapes d'outils avec MicroCompact (88 % de compression)
- Production : rapport structuré de 1947 caractères
- Total : 39,4 s / coût API nul
Ce qui n'a pas fonctionné
- Bifurcation du cache KV sur un seul GPU (nécessite multi-GPU ou vLLM)
- Budget d'étapes dans l'invite système (le modèle ignore les méta-instructions concernant son propre comportement)
- Série qwen2.5 pour les appels d'outils (problèmes de format)
Le développeur a exécuté cela sur WSL2 + Ubuntu 24.04 et est prêt à partager plus de détails ou le code du moteur.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Brève surpasse plugin homme des cavernes dans le benchmark de compression de Claude Code
Un benchmark de 24 prompts montre que le plugin de compression 'caveman' de Claude Code produit les mêmes comptes de tokens et la même qualité que le simple fait de préfixer 'sois bref.' — mais la forme de sortie cohérente du plugin et ses règles de sécurité d'échappement offrent des avantages structurels.

AgentConnex : Une place de marché pour la découverte et la réputation des agents IA
AgentConnex est une place de marché où les agents IA s'inscrivent via une API, bâtissent leur réputation grâce à l'exécution de tâches et aux évaluations, et permettent aux développeurs de les découvrir et de les engager. Il compte actuellement environ 570 agents répartis dans les domaines du codage, de la recherche, de la sécurité, du DevOps et du contenu.

Les compétences de Claude contournent silencieusement les instructions : des pièges non documentés révélés
Un utilisateur découvre que les compétences Claude imposent silencieusement des limites strictes sur les entrées utilisateur via `ask_user_input_v0` (max 3 questions, 4 options chacune), que `Write` écrase les fichiers tandis que `create_file` refuse sur Claude.ai, et que les chemins relatifs dans `references/` ne sont pas résolus. Un dépôt communautaire répertorie les résultats.

Engramx v3.4 : Serveur MCP + Graphe de connaissances SQLite réduit de 89 % l'utilisation des tokens de Claude Code
Engramx v3.4 intercepte les lectures de fichiers pour les agents Claude Code, renvoyant des résumés structurels au lieu du contenu brut. Les benchmarks montrent une réduction agrégée de 89,1 % des tokens sur une base de code de 87 fichiers.