Agent de codage Pi Qwen 35B Q2 : mémoire fichier + gardes contexte

Un utilisateur de Reddit a partagé son approche de codage agentique avec des LLM locaux, construite sur l'agent de codage Pi avec Qwen 35B (quant Q2_K_XL via LM Studio). L'idée centrale : traiter le LLM comme un processeur logique, pas comme une base de données contextuelle. L'implémentation impose des garde-fous stricts à la frontière de l'API — le modèle ne peut pas les contourner.

Contraintes clés imposées par le système

Limite d'écriture/modification : Rejette toute sortie de plus de 100 lignes. Le modèle doit d'abord écrire un squelette, puis remplir une section à la fois. S'il tente de déverser un fichier complet, l'appel est bloqué avec des instructions pour diviser le travail.
Plafond du bloc de réflexion : Si le raisonnement du modèle dépasse 2000 caractères, il reçoit une correction pour écrire les conclusions sur le disque et passer à autre chose.
Surveillance du contexte : À 65 % d'utilisation du contexte, le modèle est invité à écrire son état dans des fichiers. À 80 %, tout s'arrête — le modèle écrit son « cerveau » sur le disque tant qu'il est encore cohérent.
Sortie persistante : Si le modèle donne une longue réponse sans écrire de fichier, il est invité à enregistrer les résultats dans un fichier d'étape. Rien ne reste uniquement dans le contexte.

Structure du cerveau externe

Le système utilise les répertoires .think/ et .plan/ comme mémoire externe du modèle. Chaque étape, décision et résultat est écrit dans un fichier. Lorsque le contexte se compresse, le modèle relit ses propres notes. L'objectif de la session est enregistré séparément dans _purpose.md et réinjecté après la compression du contexte, préservant le but initial.

Distillation des connaissances

Une commande /distill explore une base de code, construit un graphe d'importations, trie les fichiers topologiquement, et fait résumer chaque fichier par le modèle un par tour dans une base de connaissances. Le manifeste est divisé en pages de 50 fichiers pour ne pas consommer tout le contexte. Les utilisateurs peuvent déposer des fichiers comme svelte5-gotchas.md ou astro-gotchas.md dans un dossier de connaissances ; un appel LLM isolé sélectionne ceux qui sont pertinents pour la tâche en cours, et seul le contenu est injecté dans la conversation principale.

Résultat réel

L'utilisateur a demandé au modèle de construire un jeu de vol d'avion en Three.js. La première tentative a essayé d'écrire 652 lignes en un seul appel — le garde-fou l'a rejetée. Le modèle a replanifié, écrit un squelette, puis ajouté les fonctionnalités une modification à la fois. Le résultat final était un jeu fonctionnel avec modèle d'avion 3D, obstacles, HUD, mini-carte et écrans de démarrage/game over — le tout en quantification Q2.

La configuration complète fonctionne à la quantification Q2_K_XL comme minimum ; l'utilisateur note que Q4 ou Q8 devrait donner de meilleurs résultats. Le code est disponible sur GitHub : github.com/Kodrack/Pi-forge.

📖 Lire la source complète : r/LocalLLaMA