AgentCache: 멀티 에이전트 LLM 프리픽스 캐싱 라이브러리, 캐시 적중률 76%

agentcache는 접두사 캐싱을 핵심 기능으로 구현하여 멀티 에이전트 LLM 시스템을 최적화하도록 설계된 Python 라이브러리입니다. 이 라이브러리는 CrewAI, AutoGen, open-multi-agent와 같은 프레임워크가 각 작업자마다 새로운 세션을 생성하여 캐시 적중률이 0%가 되고 프롬프트 비용이 중복되는 일반적인 문제를 해결합니다.

작동 방식

라이브러리는 별도의 세션을 생성하는 대신 포크 기반 접근 방식으로 작동합니다:

공유 시스템 프롬프트로 하나의 세션 시작
첫 번째 호출 수행 - 제공자가 접두사를 계산하고 캐시
N개의 작업자가 필요할 때, N개의 새 세션을 생성하는 대신 포크
부모 세션: [시스템, 메시지1, 메시지2, ...]
포크된 세션: [시스템, 메시지1, 메시지2, ..., 작업자_작업]
정확히 동일한 접두사 = 캐시 적중

주요 기능

캐시 안전 포크: 작업자 세션 간 동일한 접두사 유지
캐시 중단 감지: 스냅샷을 비교하고 캐시 적중률이 떨어질 때 정확히 무엇이 변경되었는지 보고
캐시 안전 압축: 장기 실행 세션의 경우, 각 호출 전에 이전 도구 출력을 스캔하고 큰 결과를 결정론적 자리 표시자로 대체하여 캐시 가능한 접두사를 유지하면서 더 작은 컨텍스트 유지
매개변수 고정: 포크 전에 캐시 관련 매개변수 고정 (시스템 프롬프트, 모델, 도구, 메시지, 추론 구성)
작업 DAG 스케줄링: 하나의 캐시된 세션에서 병렬 작업자 활성화

성능 결과

GPT-4o-mini와의 직접 비교 테스트에서 (코디네이터 + 3 작업자, 동일 작업):

텍스트 주입 / 별도 세션: 0% 캐시 적중, 85.7초
접두사 포크: 75.8% 캐시 적중, 37.4초
작업자당 캐시 적중률은 일반적으로 80-99% 범위

설치 및 사용법

pip를 통해 설치:

pip install "git+https://github.com/masteragentcoder/agentcache.git@main"

라이브러리는 GitHub에서 github.com/masteragentcoder/agentcache에서 사용할 수 있습니다.

📖 Read the full source: r/LocalLLaMA

에이전트캐시: 멀티 에이전트 LLM 프리픽스 캐싱을 위한 파이썬 라이브러리

작동 방식

주요 기능

성능 결과

설치 및 사용법

👀 See Also

Vibeyard, Claude Code에 P2P 세션 공유 기능 추가

Altimate 코드: 오픈소스 에이전트 기반 데이터 엔지니어링 하네스

클로우허브의 에이전트 타임즈 스킬로 실시간 뉴스, 날씨, 토큰 가격 조회 기능 추가

HF Viewer: 모든 허깅 페이스 모델 그래프를 즉시 시각화