Réduire l'utilisation du contexte Claude avec un LLM local

Un développeur sur r/LocalLLaMA démontre comment utiliser Claude Code pour déléguer des tâches à un LLM local fonctionnant via LM Studio, réduisant l'utilisation du contexte de Claude en gardant le contenu des fichiers local.

Comment ça marche

Le système utilise un petit script Python (environ 120 lignes, uniquement la bibliothèque standard) qui exécute une boucle d'agent :

Vous passez à Claude une description de tâche sans le contenu des fichiers
Le script l'envoie au point de terminaison /v1/chat/completions de LM Studio avec des définitions d'outils read_file et list_dir
Le modèle local appelle lui-même ces outils pour lire les fichiers dont il a besoin
La boucle continue jusqu'à ce qu'il produise une réponse finale
Claude ne voit que le résultat, pas le contenu des fichiers

Exemple d'utilisation

python3 agent_lm.py --dir /chemin/vers/projet "résumer solar-system.html"
# [tour 1] → read_file({'path': 'solar-system.html'})
# [tour 2] → Ce fichier HTML crée un système solaire animé interactif...

Le contenu du fichier va dans le contexte du modèle local (testé avec Qwen3.5 35B 4-bit via MLX sur Apple Silicon), pas dans celui de Claude.

À quoi ça sert

Résumé et explication de code
Détection de bugs
Génération de code standard / premier jet
Transformation et traduction de texte (testé avec l'hébreu)
Tâches logiques et de raisonnement (utiliser le drapeau --think pour les problèmes plus difficiles)

À quoi ça ne sert pas

Tâches nécessitant le contexte complet de Claude, comme la compréhension multi-fichiers où les relations sont importantes
Tâches nécessitant l'historique de conversation actuel
Tout ce où la précision est critique

L'auteur le décrit comme "un assistant de niveau Haïku, pas un remplacement."

Configuration

LM Studio fonctionnant localement avec le serveur API activé
Un script Python pour la boucle d'agent, un autre pour les requêtes simples uniquement par invite
Les deux connectés à un ~/.claude/CLAUDE.md global pour que Claude Code sache proposer la délégation quand c'est pertinent
Aucun serveur MCP, aucune dépendance pip, aucune infrastructure de plugin nécessaire
Recommandation : Ajouter {%- set enable_thinking = false %} en haut du modèle jinja - pour la plupart des tâches, cela économise du temps et des jetons sans dégradation de qualité

L'auteur note qu'il a fait aider Claude à écrire le post mais avec supervision et corrections, et est heureux de partager les scripts s'il y a de l'intérêt.

📖 Lire la source complète : r/LocalLLaMA

Utiliser un LLM local comme sous-agent de code Claude pour réduire l'utilisation du contexte

Comment ça marche

Exemple d'utilisation

À quoi ça sert

À quoi ça ne sert pas

Configuration

👀 See Also

Claude-Code v2.1.111 ajoute Opus 4.7 en effort élevé, /ultrareview et un outil PowerShell.

NVIDIA annonce la plateforme d'agent NemoClaw avec des contrôles de confidentialité

AgentMind : Un Plugin Claude Code Qui Apprend et Applique Vos Préférences de Codage

Nouvel outil injecte des instructions dans le code Claude en fonction de l'utilisation contextuelle