LLM Local comme Sous-Agent Claude Code : Réduire le Contexte

Claude Code peut orchestrer des tâches en les déléguant à un LLM local fonctionnant sur votre machine, de manière similaire à son utilisation de sous-agents Claude. Cette approche maintient le contenu des fichiers hors du contexte de Claude—seuls le résumé et les insights du modèle local sont renvoyés.

Fonctionnement

Un petit script Python (~120 lignes, uniquement la bibliothèque standard) exécute une boucle d'agent :

Vous transmettez à Claude une description de tâche sans contenu de fichier
Le script l'envoie au point de terminaison /v1/chat/completions de LM Studio avec les définitions d'outils read_file et list_dir
Le modèle local appelle lui-même ces outils pour lire les fichiers dont il a besoin
La boucle continue jusqu'à ce qu'il produise une réponse finale
Claude ne voit que le résultat

Exemple de commande :

python3 agent_lm.py --dir /chemin/vers/projet "résumer solar-system.html"

Cela donne :

[tour 1] → read_file({'path': 'solar-system.html'})
[tour 2] → Ce fichier HTML crée un système solaire animé interactif...

Le contenu du fichier entre dans le contexte du modèle local (testé avec le contexte de Qwen), pas dans celui de Claude.

Cas d'usage et limites

D'après les tests avec Qwen3.5 35B 4-bit via MLX sur Apple Silicon, cette approche convient pour :

Résumé et explication de code
Détection de bugs
Génération de code standard / premier jet
Transformation et traduction de texte (testé avec l'hébreu)
Tâches logiques et de raisonnement (utiliser le drapeau --think pour les problèmes plus difficiles)

Elle ne convient pas pour :

Les tâches nécessitant le contexte complet de Claude
La compréhension multi-fichiers où les relations sont importantes
Les tâches nécessitant l'historique de conversation actuel
Tout ce où la précision est critique

Considérez-le comme un assistant de niveau Haiku, pas un remplacement de Claude.

Configuration requise

LM Studio fonctionnant localement avec le serveur API activé
Un script Python pour la boucle d'agent, un autre pour les requêtes simples uniquement par prompt
Les deux intégrés dans un fichier global ~/.claude/CLAUDE.md pour que Claude Code sache proposer la délégation quand c'est pertinent
Aucun serveur MCP, aucune dépendance pip, aucune infrastructure de plugin nécessaire

Astuce de configuration : Ajoutez {%- set enable_thinking = false %} en haut du modèle Jinja. Pour la plupart des tâches, vous n'avez pas besoin que le modèle local raisonne, et cela économise du temps et des tokens tout en augmentant la vitesse sans dégradation réelle de la qualité pour de telles tâches.

📖 Lire la source complète : r/ClaudeAI

Utiliser un LLM local comme sous-agent de code Claude pour réduire l'utilisation du contexte

Fonctionnement

Cas d'usage et limites

Configuration requise

👀 See Also

Le serveur Wisepanel MCP permet une délibération multi-LLM dans le code Claude et Cursor.

Layerkit : Éditeur d'Images IA avec Calques Modifiables Développé avec Claude Code

altRAG : Remplacez la base de données vectorielle RAG par des fichiers pointeurs de 2 Ko pour les agents d'IA de codage

Six outils open-source qui répondent aux problèmes de sécurité, de coût et de complexité d'OpenClaw