Pi 코딩 에이전트 Qwen 35B Q2: 파일 시스템을 외부 메모리로 사용하는 방법

한 Reddit 사용자가 로컬 LLM을 이용한 에이전트 코딩 접근 방식을 공유했습니다. 이 방식은 Pi 코딩 에이전트와 Qwen 35B(Q2_K_XL 양자화, LM Studio 사용)를 기반으로 합니다. 핵심 통찰은 LLM을 컨텍스트 데이터베이스가 아닌 논리 프로세서로 취급하는 것입니다. 구현체는 API 경계에서 엄격한 제한을 적용하며, 모델은 이를 우회할 수 없습니다.

시스템이 적용하는 주요 제약

쓰기/편집 제한: 100줄을 초과하는 출력은 거부됩니다. 모델은 먼저 뼈대를 작성하고, 한 섹션씩 채워야 합니다. 전체 파일을 한 번에 덤프하려고 하면 작업 분할 지시와 함께 호출이 차단됩니다.
사고 블록 제한: 모델의 추론이 2000자를 초과하면 결론을 디스크에 기록하고 진행하라는 수정 지시를 받습니다.
컨텍스트 모니터: 컨텍스트 사용량이 65%에 도달하면 모델이 상태를 파일에 기록하라는 지시를 받습니다. 80%에서는 모든 작업이 중단되고, 모델이 아직 일관성을 유지하는 동안 '두뇌'를 디스크에 기록합니다.
영구 출력: 모델이 파일을 작성하지 않고 긴 답변을 제공하면, 결과를 단계 파일에 저장하라는 지시를 받습니다. 어떤 것도 컨텍스트에만 남아 있지 않습니다.

외부 두뇌 구조

시스템은 모델의 외부 메모리로 .think/ 및 .plan/ 디렉토리를 사용합니다. 모든 단계, 결정, 결과는 파일에 기록됩니다. 컨텍스트가 압축되면 모델은 자신의 노트를 다시 읽습니다. 세션 목적은 _purpose.md에 별도로 저장되며, 컨텍스트 압축 후 다시 주입되어 원래 목표를 유지합니다.

지식 증류

/distill 명령은 코드베이스를 크롤링하여 임포트 그래프를 만들고, 파일을 위상 정렬한 후, 모델이 각 파일을 한 번에 하나씩 요약하여 지식 베이스로 만듭니다. 매니페스트는 전체 컨텍스트를 소비하지 않도록 50개 파일 단위로 분할됩니다. 사용자는 svelte5-gotchas.md 또는 astro-gotchas.md와 같은 파일을 지식 폴더에 넣을 수 있으며, 격리된 LLM 호출이 현재 작업에 관련된 파일을 선택하고, 선택된 내용만 메인 대화에 주입됩니다.

실제 결과

사용자는 모델에게 Three.js 비행기 비행 게임을 만들도록 요청했습니다. 첫 번째 시도에서 652줄을 한 번에 작성하려 했으나, 가드가 이를 거부했습니다. 모델은 계획을 다시 세우고 뼈대를 작성한 후, 한 번에 하나씩 기능을 채워 나갔습니다. 최종 결과는 Q2 양자화에서도 3D 비행기 모델, 장애물, HUD, 미니맵, 시작/게임 오버 화면을 갖춘 동작하는 게임이었습니다.

전체 설정은 Q2_K_XL 양자화를 최소 사양으로 사용하며, 사용자는 Q4나 Q8이 더 나은 결과를 낼 것이라고 언급했습니다. 코드는 GitHub에서 확인할 수 있습니다: github.com/Kodrack/Pi-forge.

📖 전체 출처 읽기: r/LocalLLaMA