코딩 에이전트 구축을 위한 8K 컨텍스트: 플래너/실행기 분할, 토큰 예산 및 병렬 실행

✍️ OpenClawRadar📅 게시일: April 28, 2026🔗 Source
코딩 에이전트 구축을 위한 8K 컨텍스트: 플래너/실행기 분할, 토큰 예산 및 병렬 실행
Ad

대부분의 AI 코딩 도구는 200k 토큰 모델을 가정하지만, Ollama, LM Studio 또는 Groq나 OpenRouter 같은 무료 티어 API를 통해 로컬 LLM을 실행하는 경우 약 8k 토큰으로 제한됩니다. 이는 전체 프로젝트에 적합하지 않으며, 큰 파일 하나도 간신히 처리할 수 있습니다. 한 개발자가 이 제약 조건에 맞춰 CLI 에이전트를 구축하는 데 몇 주를 보냈고, 실용적인 교훈을 공유했습니다.

핵심 아키텍처: 플래너/실행자 분할

에이전트는 LLM에 전체 프로젝트를 보여주지 않습니다. 대신 작업을 세 가지 역할로 분할합니다:

  • 플래너: 각 폴더의 마크다운 요약(총 약 300~500 토큰)과 사용자 요청만 보고 작업 목록을 출력합니다.
  • 실행자: 한 번 호출에 정확히 하나의 파일과 하나의 작업만 봅니다. 두 파일을 동시에 보지 않습니다.
  • 오케스트레이터: 작업 목록에서 의존성 그래프를 만들고 병렬 실행 가능한 작업과 순차 실행이 필요한 작업을 결정하는 순수 코드(LLM 없음)입니다.

이 접근 방식은 다중 파일 리팩토링을 컨텍스트 윈도우 문제에서 스케줄링 문제로 전환합니다. 플래너는 코드를 볼 필요가 없고, 실행자는 한 번에 제한된 양의 코드만 봅니다.

코드로 적용된 토큰 예산

모든 LLM 호출은 시스템 프롬프트 + 예약된 출력 토큰 + 메모리 + 실제 코드를 측정하는 canFit() 검사를 거칩니다. 코드가 맞지 않으면 에이전트는 파일당 라인 인덱스(약 150줄 이상의 파일에 대해 한 번 생성됨)로 폴백하고 관련 섹션만 가져옵니다.

8192 토큰에 대한 예산 계산:

시스템 프롬프트 + 지시: ~1000
응답 예약: ~2000
단기 메모리(4개 항목): ~360
실제 코드에 사용 가능: ~4800 (약 140~190줄)

예산이 부족할 때는 먼저 폴더 컨텍스트를 제거한 다음 메모리를 제거하고, 마지막으로 실제 코드를 줄입니다.

Ad

속도 향상을 위한 병렬 실행

각 실행자가 하나의 파일만 보기 때문에 독립적인 편집이 여러 파일에서 동시에 실행됩니다. 5개 파일 리팩토링은 가장 긴 단일 편집 시간 정도에 완료됩니다. 의존성 그래프(플래너의 작업 목록에서 코드로 구축됨)가 순서를 결정합니다.

문제점과 해결책

  • 파일을 덮어쓰는 질문 스타일 요청: "X에 몇 줄이 있나요?"라고 묻는 경우 실행자가 답변을 파일 쓰는 문제가 발생했습니다. 플래너 출력에 action_type: "query" 필드를 추가하고 디스크에 쓰지 않는 코드 경로로 라우팅하여 수정했습니다.
  • 프로젝트 맵이 오래되어 잘못된 경로로 전달되는 문제: 사용자가 맵에 없는 이름이 변경된 파일을 언급하면 플래너가 자동으로 가장 가까운 일치 항목으로 경로를 지정했습니다. 이제 오케스트레이터가 언급된 파일 경로가 디스크에 존재하는지 확인하고 없으면 명확한 오류를 발생시킵니다.
  • 실행자 출력의 마크다운 코드 블록: 작은 모델은 지시에도 불구하고 코드를 삼중 백틱으로 감쌉니다. 해결책: 프롬프트와 싸우는 대신 후처리에서 제거합니다.
  • 메모리 토큰 비용: 영구 메모리는 항목당 약 80~90 토큰을 추가합니다. 예산이 부족하면 먼저 폴더 컨텍스트를 제거한 다음 메모리를 제거하고, 실제 코드를 줄입니다.

열린 질문

플래너/실행자 분할이 50개 파일 이상의 코드베이스에서 확장 가능한지 여부 — 의존성 그래프는 관리 가능하지만 프로젝트 맵이 실제 토큰을 소모하기 시작합니다. 현재는 폴더 컨텍스트를 먼저 제거하지만, 더 깊은 편집은 컨텍스트를 잃습니다. 자세히 알고 싶다면 구현이 오픈소스로 공개되어 있습니다.

📖 전체 소스 읽기: r/LocalLLaMA

Ad

👀 See Also

스카이클로: 텔레그램 제어 기능이 탑재된 클라우드 VPS용 러스트 AI 에이전트 런타임
Tools

스카이클로: 텔레그램 제어 기능이 탑재된 클라우드 VPS용 러스트 AI 에이전트 런타임

SkyClaw는 텔레그램을 유일한 인터페이스로 사용하는 클라우드 VPS 배포를 위해 설계된 6.9MB Rust 기반 AI 에이전트 런타임입니다. 셸 명령어 실행, 헤드리스 크롬을 통한 웹 브라우징, 파일 읽기/쓰기, URL 가져오기 및 다중 라운드 도구 체이닝을 수행합니다.

OpenClawRadar
Manifest는 이제 API 키 없이 Claude Pro/Max 구독을 지원합니다
Tools

Manifest는 이제 API 키 없이 Claude Pro/Max 구독을 지원합니다

오픈소스 라우팅 레이어인 Manifest는 이제 API 키 없이도 Claude Pro 또는 Max 구독을 직접 연결할 수 있도록 지원합니다. API 키가 있는 사용자는 구독 요금제 한도에 도달했을 때 폴백 라우팅을 구성할 수 있습니다.

OpenClawRadar
로컬 vLLM으로 NemoClaw 실행하기: 설정 노트 및 에이전트 엔지니어링 관찰
Tools

로컬 vLLM으로 NemoClaw 실행하기: 설정 노트 및 에이전트 엔지니어링 관찰

개발자가 WSL2에서 vLLM을 사용하여 로컬 Nemotron 9B v2 모델과 함께 NVIDIA의 샌드박스 AI 에이전트 플랫폼인 NemoClaw을 실행한 경험을 문서화했습니다. 주요 발견 사항으로는 추론 라우팅 세부사항, 파서 호환성 문제, 그리고 에이전트 엔지니어링 격차에 대한 관찰이 포함됩니다.

OpenClawRadar
프롬프트-미니: Claude 코드 플러그인이 모호한 프롬프트를 가로채 크레딧 낭비를 줄입니다
Tools

프롬프트-미니: Claude 코드 플러그인이 모호한 프롬프트를 가로채 크레딧 낭비를 줄입니다

Prompt-mini는 Claude Code 플러그인으로, 실행 전에 모호한 프롬프트를 가로채어 명확한 질문을 하고, 스택 감지 및 40개 이상의 프레임워크에 대한 구체적인 규칙을 포함한 구조화된 프롬프트를 구축합니다. 이 도구는 범위 누락, 중지 조건, 파일 경로 등 35가지 크레딧 낭비 패턴을 해결합니다.

OpenClawRadar