Prefex: 프롬프트 캐싱과 세션 메모리 자동화를 위한 Claude 코드용 로컬 프록시

Prefex는 Claude Code 사용 시 API 비용을 절감하기 위해 설계된 로컬 프록시 도구입니다. 이 도구는 두 가지 특정한 비효율성을 해결합니다: Anthropic의 베타 프롬프트 캐싱 기능은 수동 헤더 주입이 필요하며, Claude Code는 모든 요청에 전체 대화 기록을 전송합니다.
작동 방식
Prefex는 Claude Code와 Anthropic API 사이의 프록시로 사용자의 로컬 머신에서 완전히 실행됩니다. 이 도구는 Anthropic의 프롬프트 캐싱 기능을 활성화하는 데 필요한 특정 헤더를 자동으로 주입하여 반복 입력 토큰에 대한 비용을 90% 절감합니다. 이 헤더가 없으면 CLAUDE.md 및 프로젝트 컨텍스트를 포함한 모든 요청이 정가로 청구됩니다.
이 도구는 또한 세션 메모리를 구현하여 Claude Code가 각 차례마다 전체 대화 기록을 재전송하는 것을 방지합니다. 추가로 더 저렴한 모델로 간단한 쿼리를 라우팅할 수 있는 모델 라우터를 포함하지만, 이 기능은 초기 테스트 기간 동안 활성화되지 않았습니다.
성능 및 설치
정상적인 사용으로 4일간 테스트한 결과:
- 1,338개 요청 처리
- Prefex 사용 시 실제 비용 $49.60
- Prefex 없을 경우 예상 비용 $348
- 86% 절감 달성 (캐싱만 사용, 모델 라우팅 없음)
개발자는 karpathy/nanoGPT에서 콜드 및 웜 스타트로 5개 질문을 실행하는 벤치마크를 제공하며, 이는 약 $0.03의 비용이 듭니다. 비용 계산은 Anthropic의 실제 청구 필드를 사용합니다.
설치에는 하나의 curl 명령과 settings.json에 한 줄 추가가 필요합니다. 패키지에는 제거 스크립트가 포함되어 있습니다. 이 도구는 외부 서버 없이 로컬에서 작동하며, 원격 측정도 없고 API 키는 직접 Anthropic으로 전송됩니다.
📖 Read the full source: r/ClaudeAI
👀 See Also

로컬 LLM 추론을 위한 프록시 수준 루프 탐지
vLLM 프록시 뒤에서 Qwen3.6 MoE를 실행하던 개발자가 일반적인 신뢰성 문제에 부딪혔습니다: 모델이 추론 블록 내에서 자신을 반복하며 토큰을 소모하고 에이전트를 지연시키는 폭주 추론 루프입니다. 180+ 토큰/초 속도에서는 20-30초의 루프도 GPU 시간을 낭비하고 클라이언트 요청을 차단합니다. 그들은 프록시 계층에 위치하여 클라이언트에 도달하기 전에 스트리밍 출력에 대해 결정론적 검사를 적용하는 경량 가드를 구축했습니다.

Void-Box를 사용하여 격리된 마이크로-VM에서 OpenClaw 실행하기
OpenClaw는 Void-Box를 사용하여 격리된 마이크로-VM 내부에서 서비스로 실행될 수 있습니다. Void-Box는 KVM 마이크로-VM에서 워크플로우를 실행하는 기능 제한 런타임으로, 컨테이너 런타임의 개입 없이 깨끗한 실행 경계를 제공합니다.

Clawforce: 클로봇 에이전트 팀 관리를 위한 오픈소스 제어 플레인
Clawforce는 클릭 몇 번으로 배포가 가능한 Clawbot 에이전트 팀 관리를 위한 오픈소스 제어 평면입니다. UI를 통해 캐릭터, 스킬, MCP 통합 및 도구를 구성할 수 있으며, 에이전트들은 협력적으로 계획을 세우고 조율하며 작업을 실행할 수 있습니다.

Snip 도구는 AI 코딩 에이전트와의 시각적 커뮤니케이션을 가능하게 합니다.
Snip은 개발자가 스크린샷을 찍고, 주석을 달고, 그림을 그려 AI 에이전트에게 시각적으로 의미를 전달할 수 있는 무료 도구입니다. 반면 에이전트는 CLI나 MCP를 통해 다이어그램을 생성하거나 이미지를 직접 불러올 수 있습니다. 현재 Apple Silicon Mac에서 실행되며 Mermaid 다이어그램을 지원하고 HTML 지원은 진행 중입니다.