Qwen 35B Q2 Pi-Coding-Agent: Dateisystem als Speicher

Ein Reddit-Nutzer hat seinen Ansatz für agentisches Programmieren mit lokalen LLMs geteilt, der auf dem Pi-Coding-Agenten mit Qwen 35B (Q2_K_XL-Quantisierung über LM Studio) basiert. Die Kernidee: Behandle das LLM als Logikprozessor, nicht als Kontextdatenbank. Die Implementierung erzwingt strenge Schutzmechanismen an der API-Grenze – das Modell kann sie nicht umgehen.

Wichtige durch das System erzwungene Einschränkungen

Schreib-/Bearbeitungslimit: Lehnt jede Ausgabe über 100 Zeilen ab. Das Modell muss zuerst ein Grundgerüst schreiben und dann einen Abschnitt nach dem anderen ausfüllen. Versucht es, eine vollständige Datei auszugeben, wird der Aufruf mit der Anweisung blockiert, die Arbeit aufzuteilen.
Denkblock-Obergrenze: Überschreitet die Argumentation des Modells 2000 Zeichen, erhält es eine Korrektur, die Schlussfolgerungen auf die Festplatte zu schreiben und fortzufahren.
Kontextüberwachung: Bei 65 % Kontextauslastung wird dem Modell gesagt, seinen Zustand in Dateien zu schreiben. Bei 80 % stoppt alles – das Modell schreibt sein „Gehirn“ auf die Festplatte, solange es noch kohärent ist.
Dauerhafte Ausgabe: Wenn das Modell eine lange Antwort gibt, ohne eine Datei zu schreiben, wird es angewiesen, die Ergebnisse in einer Schrittdatei zu speichern. Nichts bleibt nur im Kontext.

Externe Gehirnstruktur

Das System verwendet Verzeichnisse .think/ und .plan/ als externes Gedächtnis des Modells. Jeder Schritt, jede Entscheidung und jedes Ergebnis wird in einer Datei festgehalten. Wenn der Kontext komprimiert wird, liest das Modell seine eigenen Notizen zurück. Der Sitzungszweck wird separat in _purpose.md gespeichert und nach der Kontextkomprimierung wieder eingefügt, um das ursprüngliche Ziel zu bewahren.

Wissensdestillation

Ein Befehl /distill durchsucht eine Codebasis, erstellt einen Importgraphen, sortiert Dateien topologisch und lässt das Modell sie pro Durchgang eine zusammenfassen, um eine Wissensdatenbank aufzubauen. Das Manifest wird in Seiten zu je 50 Dateien aufgeteilt, um den gesamten Kontext nicht zu verbrauchen. Benutzer können Dateien wie svelte5-gotchas.md oder astro-gotchas.md in einen Wissensordner ablegen; ein isolierter LLM-Aufruf wählt aus, welche für die aktuelle Aufgabe relevant sind, und nur der Inhalt wird in die Hauptkonversation eingefügt.

Ergebnis in der Praxis

Der Benutzer bat das Modell, ein Three.js-Flugzeugspiel zu bauen. Der erste Versuch versuchte, 652 Zeilen in einem Aufruf zu schreiben – der Schutzmechanismus lehnte ab. Das Modell plante neu, schrieb ein Grundgerüst und füllte dann Funktionen eine Bearbeitung nach der anderen aus. Das Endergebnis war ein funktionierendes Spiel mit 3D-Flugzeugmodell, Hindernissen, HUD, Minikarte und Start-/Game-Over-Bildschirmen – alles bei Q2-Quantisierung.

Der vollständige Aufbau läuft mit Q2_K_XL-Quantisierung als Minimum; der Benutzer merkt an, dass Q4 oder Q8 bessere Ergebnisse liefern sollten. Der Code ist auf GitHub verfügbar: github.com/Kodrack/Pi-forge.

📖 Vollständige Quelle lesen: r/LocalLLaMA

Pi-Coding-Agent mit Qwen 35B Q2: Dateisystem als externen Speicher nutzen und Kontextschutz erzwingen

Wichtige durch das System erzwungene Einschränkungen

Externe Gehirnstruktur

Wissensdestillation

Ergebnis in der Praxis

👀 Siehe auch

WeAreHere Browser-Erweiterung und MCP-Tools scannen Website-Datenschutzpraktiken

Warp Terminal wird Open Source mit agentischer Entwicklungsumgebung

Orc: Multi-Agent Coding Orchestration Tool erweitert um Planungs- und Benachrichtigungsfunktionen

Claude für Designarbeit: Wie man die immer gleichen Geschmacksdebatten in jeder Sitzung beendet