Agent de codage Pi avec Qwen 35B Q2 : utilisation du système de fichiers comme mémoire externe et mise en place de gardes de contexte

Un utilisateur de Reddit a partagé son approche de codage agentique avec des LLM locaux, construite sur l'agent de codage Pi avec Qwen 35B (quant Q2_K_XL via LM Studio). L'idée centrale : traiter le LLM comme un processeur logique, pas comme une base de données contextuelle. L'implémentation impose des garde-fous stricts à la frontière de l'API — le modèle ne peut pas les contourner.
Contraintes clés imposées par le système
- Limite d'écriture/modification : Rejette toute sortie de plus de 100 lignes. Le modèle doit d'abord écrire un squelette, puis remplir une section à la fois. S'il tente de déverser un fichier complet, l'appel est bloqué avec des instructions pour diviser le travail.
- Plafond du bloc de réflexion : Si le raisonnement du modèle dépasse 2000 caractères, il reçoit une correction pour écrire les conclusions sur le disque et passer à autre chose.
- Surveillance du contexte : À 65 % d'utilisation du contexte, le modèle est invité à écrire son état dans des fichiers. À 80 %, tout s'arrête — le modèle écrit son « cerveau » sur le disque tant qu'il est encore cohérent.
- Sortie persistante : Si le modèle donne une longue réponse sans écrire de fichier, il est invité à enregistrer les résultats dans un fichier d'étape. Rien ne reste uniquement dans le contexte.
Structure du cerveau externe
Le système utilise les répertoires .think/ et .plan/ comme mémoire externe du modèle. Chaque étape, décision et résultat est écrit dans un fichier. Lorsque le contexte se compresse, le modèle relit ses propres notes. L'objectif de la session est enregistré séparément dans _purpose.md et réinjecté après la compression du contexte, préservant le but initial.
Distillation des connaissances
Une commande /distill explore une base de code, construit un graphe d'importations, trie les fichiers topologiquement, et fait résumer chaque fichier par le modèle un par tour dans une base de connaissances. Le manifeste est divisé en pages de 50 fichiers pour ne pas consommer tout le contexte. Les utilisateurs peuvent déposer des fichiers comme svelte5-gotchas.md ou astro-gotchas.md dans un dossier de connaissances ; un appel LLM isolé sélectionne ceux qui sont pertinents pour la tâche en cours, et seul le contenu est injecté dans la conversation principale.
Résultat réel
L'utilisateur a demandé au modèle de construire un jeu de vol d'avion en Three.js. La première tentative a essayé d'écrire 652 lignes en un seul appel — le garde-fou l'a rejetée. Le modèle a replanifié, écrit un squelette, puis ajouté les fonctionnalités une modification à la fois. Le résultat final était un jeu fonctionnel avec modèle d'avion 3D, obstacles, HUD, mini-carte et écrans de démarrage/game over — le tout en quantification Q2.
La configuration complète fonctionne à la quantification Q2_K_XL comme minimum ; l'utilisateur note que Q4 ou Q8 devrait donner de meilleurs résultats. Le code est disponible sur GitHub : github.com/Kodrack/Pi-forge.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Le plugin HomeClaw connecte Apple HomeKit à OpenClaw
HomeClaw est un plugin OpenClaw qui connecte les appareils Apple Home/HomeKit à OpenClaw. Il nécessite un compte développeur Apple pour être construit et exécuté en raison des restrictions d'Apple HomeKit pour les distributions notariées.

Système d'Anticorps : Surveillance Hors-Bande pour les Agents OpenClaw
Le Système Anticorps est un système de surveillance open source qui s'exécute sur une machine séparée et surveille les agents OpenClaw via SSH, mettant en œuvre des réponses graduées de la détection à la récupération des services. Il est conçu pour survivre aux défaillances qui affectent l'agent principal.

MAGELLAN : Un système de découverte scientifique autonome à 15 agents construit sur Claude Code
MAGELLAN est un système de découverte scientifique autonome à 15 agents entièrement construit sur Claude Code. Il utilise Opus pour le raisonnement approfondi et Sonnet pour les tâches structurées, générant des hypothèses interdisciplinaires sans direction humaine, avec 260 hypothèses proposées et 60% éliminées par validation contradictoire en 19 sessions.

Compétence GAN pour Claude Code : Outil d'IA Adversaire pour l'Affinement d'Idées
Une compétence Claude Code appelée /gan utilise des rôles d'IA adversariaux pour critiquer et améliorer les idées à travers des phases alternées de Discriminateur et de Générateur, avec des fonctionnalités comme les modes d'intensité, la sortie multilingue et la sélection forcée des rôles développées par auto-itération.