llama.cpp 대규모 프롬프트 재처리와 코딩 에이전트: KV 캐시 및 컨텍스트 스와핑 디버깅

✍️ OpenClawRadar📅 게시일: May 14, 2026🔗 Source
llama.cpp 대규모 프롬프트 재처리와 코딩 에이전트: KV 캐시 및 컨텍스트 스와핑 디버깅
Ad

r/LocalLLaMA의 한 개발자가 llama-swap을 통해 장문 컨텍스트 코딩 에이전트(opencode + pi.dev)를 실행할 때 llama.cpp에서 심각한 성능 문제를 겪고 있습니다. 프롬프트가 매우 유사한 경우(LCP 유사도가 종종 >0.99)에도 시스템이 주기적으로 KV 캐시를 폐기하고 40k+ 토큰을 재처리하여 TTFT가 수 분에 달합니다.

관찰된 동작

  • 컨텍스트가 50k+ 토큰으로 증가합니다.
  • 여러 번 정상적으로 재사용된 후(예: prompt eval time = 473 ms / 19 tokens), n_past가 갑자기 ~4-5k로 떨어집니다.
  • llama.cpp가 전체 프롬프트를 재처리합니다: n_tokens = 4750 prompt eval time = 222411 ms / 44016 tokens.
  • 캐시 사용량이 4676 MiB에 도달하여 설정된 제한(2500 MiB)을 초과합니다.

현재 설정

llama-server --ctx-size 150000 --parallel 1 --ctx-checkpoints 32 --cache-ram 2500 --cache-reuse 256 -no-kvu --no-context-shift
Ad

의심되는 원인

  • --cache-ram 제한 초과로 인한 캐시 무효화 – 로그에 4676 MiB 사용 vs 2500 MiB 제한.
  • 초기 프롬프트 토큰이 변경될 때(아마 opencode가 자주 변경) 잘못된 KV 재사용 메커니즘.
  • 150k 컨텍스트 크기에 대해 --ctx-checkpoints 또는 --cache-reuse가 불충분.

커뮤니티의 권장 사항

아직 답변이 많지 않지만, 첫 번째 단계로 --cache-ram을 일반적인 사용량(예: 5000+ MiB)에 맞게 늘리거나 --ctx-size를 줄여 캐시 제한 내로 유지하는 것이 포함됩니다. 또한 opencode가 의도적으로 프롬프트 접두사를 변경하는지 확인하십시오. 그렇다면 시스템 프롬프트를 고정하거나 고정된 접두사를 사용하면 재사용이 개선될 수 있습니다.

유사한 설정을 실행하는 개발자는 소스 스레드에서 작업 설정을 공유해 주세요.

📖 전체 소스 읽기: r/LocalLLaMA

Ad

👀 See Also

코딩 전 AI를 활용하여 프로젝트 티켓을 생성하면 범위 변동을 줄일 수 있습니다.
Tips

코딩 전 AI를 활용하여 프로젝트 티켓을 생성하면 범위 변동을 줄일 수 있습니다.

한 개발자는 코드를 작성하기 전에 AI에게 작업, 하위 작업, 범위, 수락 기준이 포함된 상세한 프로젝트 티켓을 생성하도록 요청하면 범위 확장과 큰 코드 변경을 크게 줄일 수 있다는 사실을 발견했습니다. 각 AI 에이전트는 전체 계획이 아닌 자신의 특정 하위 작업만 받습니다.

OpenClawRadar
tmux와 at을 사용한 Claude 세션 재시작 자동화
Tips

tmux와 at을 사용한 Claude 세션 재시작 자동화

사용량이 초기화되는 이른 시간에 Claude 세션을 자동으로 재시작하려면 tmux와 at 명령어를 사용하세요.

OpenClawRadar
대규모 OpenClaw 프로젝트에서 메모리 관리를 위한 프로젝트 내러티브 활용
Tips

대규모 OpenClaw 프로젝트에서 메모리 관리를 위한 프로젝트 내러티브 활용

한 개발자가 주요 마일스톤마다 별도의 OpenClaw 작업자를 생성하여 코드베이스를 분석하고 '프로젝트 서사' 문서를 작성하는 과정을 공유합니다. 이는 주요 작업자가 놓칠 수 있는 깨진 파이프라인, 중복성, 누락된 부분을 식별하는 데 도움이 됩니다.

OpenClawRadar
/loop 명령어로 하룻밤 사이에 Claude API 6,000달러가 소진된 방법
Tips

/loop 명령어로 하룻밤 사이에 Claude API 6,000달러가 소진된 방법

한 개발자가 claude-opus-4-7에서 30분마다 실행되는 /loop 명령어를 방치했다가 프롬프트 캐싱 만료와 컨텍스트 증가로 하룻밤에 6,000달러를 소진한 사례 — AI 에이전트 자동화에 대한 경고 이야기입니다.

OpenClawRadar