Pi Coding AgentとQwen 35B Q2：ファイルシステムを外部メモリに使用する方法

あるRedditユーザーが、ローカルLLMを使ったエージェント的コーディング手法を共有しました。PiコーディングエージェントとQwen 35B（LM Studio経由のQ2_K_XL量子化）をベースに構築しています。核となる考え方は、LLMをコンテキストデータベースではなく、論理プロセッサとして扱うことです。この実装では、API境界で厳格なガードを適用しており、モデルがこれを回避することはできません。

システムによって強制される主な制約

書き込み/編集制限：100行を超える出力を拒否。モデルはまず骨組みを書き、その後セクションごとに埋めていきます。完全なファイルを一括で出力しようとすると、作業分割の指示とともに関数呼び出しがブロックされます。
思考ブロック上限：モデルの推論が2000文字を超えると、結論をディスクに書き込んで先に進むよう修正指示が出ます。
コンテキスト監視：コンテキスト使用率が65%に達すると、モデルは状態をファイルに書き込むよう指示されます。80%ではすべて停止し、モデルがまだ一貫性を保っているうちに「脳」をディスクに書き出します。
永続的な出力：モデルがファイルを書き込まずに長い回答をした場合、発見内容をステップファイルに保存するよう指示されます。何もコンテキスト内に残りません。

外部脳構造

システムは.think/と.plan/ディレクトリをモデルの外部メモリとして使用します。各ステップ、決定、発見はファイルに書き込まれます。コンテキストが圧縮されると、モデルは自身のノートを読み戻します。セッションの目的は_purpose.mdに別途保存され、コンテキスト圧縮後に再注入されて、元の目標が維持されます。

知識抽出

/distillコマンドはコードベースをクロールし、インポートグラフを構築し、ファイルをトポロジカルソートして、モデルに1ターンにつき1ファイルずつ知識ベースに要約させます。マニフェストは50ファイルごとのページに分割され、コンテキスト全体を消費しないようにしています。ユーザーはsvelte5-gotchas.mdやastro-gotchas.mdなどのファイルを知識フォルダにドロップできます。独立したLLM呼び出しで現在のタスクに関連するファイルが選択され、その内容だけがメイン会話に注入されます。

実際の結果

ユーザーはモデルにThree.jsの飛行機ゲームを構築するよう依頼しました。最初の試行では一度に652行を書き出そうとしましたが、ガードに拒否されました。モデルは再計画し、骨組みを書き、その後1編集ずつ機能を埋めていきました。最終結果は、3D飛行機モデル、障害物、HUD、ミニマップ、開始/ゲームオーバー画面を備えた動作するゲームでした。すべてQ2量子化でも実現しました。

完全なセットアップはQ2_K_XL量子化を最低レベルとして動作します。ユーザーはQ4またはQ8であればより良い結果が得られると述べています。コードはGitHubで公開されています：github.com/Kodrack/Pi-forge。

📖 原文を読む： r/LocalLLaMA