AVP 프로토콜은 토큰 효율성을 위해 텍스트 대신 KV-캐시를 공유할 수 있도록 LLM 에이전트를 지원합니다

AVP의 기능
AVP(에이전트 벡터 프로토콜)는 다중 에이전트 환경에서 LLM 에이전트들이 텍스트 대신 KV 캐시를 직접 전달할 수 있게 하는 프로토콜입니다. 이를 통해 각 에이전트가 전체 대화 기록을 재처리할 때 발생하는 중복 토큰화와 순방향 패스를 제거합니다.
작동 방식
각 에이전트가 모든 것을 재토큰화하는 기존의 텍스트 기반 방식 대신, AVP는 에이전트 A가 추론 후 키-값 어텐션 상태를 직렬화하고, 에이전트 B가 이를 직접 주입할 수 있게 합니다. 이는 다음을 의미합니다:
- 양측 동일 모델: 오버헤드 없이 직접 KV 캐시 전송
- 동일 계열, 다른 크기(예: Qwen2.5-7B가 1.5B와 통신): 학습된 파라미터나 보정 데이터 없이 어휘 기반 투영 가능
- 다른 계열: JSON으로 폴백
- 전송 방식 독립적: A2A, MCP, gRPC 또는 기존 사용 중인 어떤 방식과도 함께 작동
- 바이너리 와이어 형식: JSON+Base64(텐서 데이터에 33% 오버헤드 발생)가 아님
성능 결과
Qwen2.5, Llama 3.2, DeepSeek-R1-Distill 모델에서 테스트 결과:
- 토큰 절감률 73-78%
- 2-4배 속도 향상
- 세 모델 계열 모두에서 일관된 결과
- 체인 길이가 길어질수록 차이 확대: 4개 에이전트에서 약 2배, 16개 에이전트(예상)에서 약 6배
효율성은 각 단계마다 텍스트 프롬프트 크기가 급증하는 반면(4개 에이전트 GSM8K 체인에서 186 → 545 → 1,073 → 1,397 토큰), 잠재 상태는 이전 컨텍스트가 사전 계산된 KV 캐시로 도착하기 때문에 단계당 약 164-207 토큰으로 일정하게 유지되기 때문입니다.
제한 사항
- 샘플 크기: 모델당 n=20(토큰/속도 주장에는 충분하지만 정확도 주장에는 부족)
- 소형 모델만 테스트 완료(RTX 3070 Ti에서 1.5B-3B), 7B+ 결과는 보류 중
- 최소 1 Gbps 이상 대역폭 필요(3B 모델의 KV 캐시는 샘플당 약 130 MB)
- 자체 호스팅 전용(KV 캐시 접근 필요, OpenAI/Anthropic 등 API와는 작동 안 함)
- 현재 동일 모델만 지원(교차 모델 구현은 존재하지만 벤치마크 미완료)
- 텍스트 대비 잠재 상태가 17-54배 더 많은 VRAM 사용(단계 간 KV 캐시 유지 필요)
시작하기
설치: pip install avp
두 가지 API 수준 제공:
import avp
msg = avp.pack("Hello", model="Qwen/Qwen2.5-7B-Instruct", think_steps=20)
answer = avp.unpack(msg, model="Qwen/Qwen2.5-7B-Instruct")또는 더 많은 제어를 원할 경우:
from avp import HuggingFaceConnector
connector = HuggingFaceConnector.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct")
context = connector.think("이 문제를 분석하세요", steps=20)
answer = connector.generate("해결하세요.", context=context)vLLM 커넥터도 사용 가능: pip install "avp[vllm]"
프로젝트 링크
- SDK: github.com/VectorArc/avp-python (MIT, 377개 테스트, 7개 벤치마크)
- 사양: github.com/VectorArc/avp-spec
- 벤치마크 상세: BENCHMARKS.md
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

코드사이트: AI 컨텍스트 엔진으로 클로드 코드 세션에서 3만~6만 토큰 절약
Codesight는 AI 코딩 에이전트에 구조화된 컨텍스트를 제공하여 토큰 낭비를 줄이기 위해 코드베이스를 분석하는 오픈소스 도구입니다. 한 개발자가 유지 관리자와 협력하여 Next.js와 Prisma용 AST 파싱, 평가 스위트, 토큰 원격 측정, Claude Code 및 Cursor용 프로필을 추가했습니다.

Sentrial: AI 에이전트를 위한 생산 모니터링
Sentrial은 루프, 환각, 도구 오용, 사용자 불만을 포함한 AI 제품의 실패 패턴을 자동으로 감지하는 모니터링 도구입니다. 대화 패턴, 모델 출력 및 도구 상호작용을 분석하여 근본 원인을 진단합니다.

AI 에이전트의 이메일 및 Google 드라이브 접근 문제 해결
AWS에서 AI 봇을 위한 이메일 및 Google Drive 접근 설정 시 계정 차단이 발생할 수 있습니다. Gmail과 Workspace 도메인을 활용한 해결 방법을 소개합니다.

md-viewer: Claude 코드 워크플로우를 위한 실시간 리로드 마크다운 뷰어
md-viewer는 Claude Code로 생성된 파일을 위한 라이브 리로딩 마크다운 뷰어를 제공하는 경량 Rust 도구입니다. 편집기와 독립적으로 실행되며, Mermaid 다이어그램을 지원하고, AUR, Snap 또는 Cargo를 통해 설치할 수 있습니다.