Pi-Coding-Agent mit Qwen 35B Q2: Dateisystem als externen Speicher nutzen und Kontextschutz erzwingen

Ein Reddit-Nutzer hat seinen Ansatz für agentisches Programmieren mit lokalen LLMs geteilt, der auf dem Pi-Coding-Agenten mit Qwen 35B (Q2_K_XL-Quantisierung über LM Studio) basiert. Die Kernidee: Behandle das LLM als Logikprozessor, nicht als Kontextdatenbank. Die Implementierung erzwingt strenge Schutzmechanismen an der API-Grenze – das Modell kann sie nicht umgehen.
Wichtige durch das System erzwungene Einschränkungen
- Schreib-/Bearbeitungslimit: Lehnt jede Ausgabe über 100 Zeilen ab. Das Modell muss zuerst ein Grundgerüst schreiben und dann einen Abschnitt nach dem anderen ausfüllen. Versucht es, eine vollständige Datei auszugeben, wird der Aufruf mit der Anweisung blockiert, die Arbeit aufzuteilen.
- Denkblock-Obergrenze: Überschreitet die Argumentation des Modells 2000 Zeichen, erhält es eine Korrektur, die Schlussfolgerungen auf die Festplatte zu schreiben und fortzufahren.
- Kontextüberwachung: Bei 65 % Kontextauslastung wird dem Modell gesagt, seinen Zustand in Dateien zu schreiben. Bei 80 % stoppt alles – das Modell schreibt sein „Gehirn“ auf die Festplatte, solange es noch kohärent ist.
- Dauerhafte Ausgabe: Wenn das Modell eine lange Antwort gibt, ohne eine Datei zu schreiben, wird es angewiesen, die Ergebnisse in einer Schrittdatei zu speichern. Nichts bleibt nur im Kontext.
Externe Gehirnstruktur
Das System verwendet Verzeichnisse .think/ und .plan/ als externes Gedächtnis des Modells. Jeder Schritt, jede Entscheidung und jedes Ergebnis wird in einer Datei festgehalten. Wenn der Kontext komprimiert wird, liest das Modell seine eigenen Notizen zurück. Der Sitzungszweck wird separat in _purpose.md gespeichert und nach der Kontextkomprimierung wieder eingefügt, um das ursprüngliche Ziel zu bewahren.
Wissensdestillation
Ein Befehl /distill durchsucht eine Codebasis, erstellt einen Importgraphen, sortiert Dateien topologisch und lässt das Modell sie pro Durchgang eine zusammenfassen, um eine Wissensdatenbank aufzubauen. Das Manifest wird in Seiten zu je 50 Dateien aufgeteilt, um den gesamten Kontext nicht zu verbrauchen. Benutzer können Dateien wie svelte5-gotchas.md oder astro-gotchas.md in einen Wissensordner ablegen; ein isolierter LLM-Aufruf wählt aus, welche für die aktuelle Aufgabe relevant sind, und nur der Inhalt wird in die Hauptkonversation eingefügt.
Ergebnis in der Praxis
Der Benutzer bat das Modell, ein Three.js-Flugzeugspiel zu bauen. Der erste Versuch versuchte, 652 Zeilen in einem Aufruf zu schreiben – der Schutzmechanismus lehnte ab. Das Modell plante neu, schrieb ein Grundgerüst und füllte dann Funktionen eine Bearbeitung nach der anderen aus. Das Endergebnis war ein funktionierendes Spiel mit 3D-Flugzeugmodell, Hindernissen, HUD, Minikarte und Start-/Game-Over-Bildschirmen – alles bei Q2-Quantisierung.
Der vollständige Aufbau läuft mit Q2_K_XL-Quantisierung als Minimum; der Benutzer merkt an, dass Q4 oder Q8 bessere Ergebnisse liefern sollten. Der Code ist auf GitHub verfügbar: github.com/Kodrack/Pi-forge.
📖 Vollständige Quelle lesen: r/LocalLLaMA
👀 Siehe auch

WeAreHere Browser-Erweiterung und MCP-Tools scannen Website-Datenschutzpraktiken
Zwei Open-Source-Tools – barebrowse und wearehere – durchsuchen Websites nach Trackern, Fingerprinting und Verbindungen zu Datenbrokern. Die wearehere-Browsererweiterung zeigt in Echtzeit Datenschutzwerte (0-100) während des Surfens an, während MCP-Server es KI-Assistenten ermöglichen, jede Website auf Befehl zu bewerten.

Warp Terminal wird Open Source mit agentischer Entwicklungsumgebung
Warp ist jetzt Open-Source und wird als agentische Entwicklungsumgebung neu positioniert – mit einem integrierten Coding-Agenten und der Möglichkeit, eigene CLI-Agenten wie Claude Code, Codex und Gemini CLI zu nutzen.

Orc: Multi-Agent Coding Orchestration Tool erweitert um Planungs- und Benachrichtigungsfunktionen
Orc ist ein Open-Source-Tool, das KI-Codierungsagenten über Projekte hinweg mit einer lokalen TUI-Oberfläche orchestriert. Das neueste Release fügt Planung als erstklassige Phase hinzu, Benachrichtigungssysteme für menschliches Eingreifen und natürliche Sprach-Lebenszyklus-Hooks.

Claude für Designarbeit: Wie man die immer gleichen Geschmacksdebatten in jeder Sitzung beendet
Ein Entwickler, der über Claude Kundenprojekte betreut, beschreibt das Kernproblem: Claude hat kein Gedächtnis für abgelehnte Designentscheidungen, was zu generischen Ergebnissen und inkonsistenter Markenidentität führt.