AVP 프로토콜: LLM 에이전트 KV-캐시 공유로 토큰 73-78% 절감

AVP의 기능

AVP(에이전트 벡터 프로토콜)는 다중 에이전트 환경에서 LLM 에이전트들이 텍스트 대신 KV 캐시를 직접 전달할 수 있게 하는 프로토콜입니다. 이를 통해 각 에이전트가 전체 대화 기록을 재처리할 때 발생하는 중복 토큰화와 순방향 패스를 제거합니다.

작동 방식

각 에이전트가 모든 것을 재토큰화하는 기존의 텍스트 기반 방식 대신, AVP는 에이전트 A가 추론 후 키-값 어텐션 상태를 직렬화하고, 에이전트 B가 이를 직접 주입할 수 있게 합니다. 이는 다음을 의미합니다:

양측 동일 모델: 오버헤드 없이 직접 KV 캐시 전송
동일 계열, 다른 크기(예: Qwen2.5-7B가 1.5B와 통신): 학습된 파라미터나 보정 데이터 없이 어휘 기반 투영 가능
다른 계열: JSON으로 폴백
전송 방식 독립적: A2A, MCP, gRPC 또는 기존 사용 중인 어떤 방식과도 함께 작동
바이너리 와이어 형식: JSON+Base64(텐서 데이터에 33% 오버헤드 발생)가 아님

성능 결과

Qwen2.5, Llama 3.2, DeepSeek-R1-Distill 모델에서 테스트 결과:

토큰 절감률 73-78%
2-4배 속도 향상
세 모델 계열 모두에서 일관된 결과
체인 길이가 길어질수록 차이 확대: 4개 에이전트에서 약 2배, 16개 에이전트(예상)에서 약 6배

효율성은 각 단계마다 텍스트 프롬프트 크기가 급증하는 반면(4개 에이전트 GSM8K 체인에서 186 → 545 → 1,073 → 1,397 토큰), 잠재 상태는 이전 컨텍스트가 사전 계산된 KV 캐시로 도착하기 때문에 단계당 약 164-207 토큰으로 일정하게 유지되기 때문입니다.

제한 사항

샘플 크기: 모델당 n=20(토큰/속도 주장에는 충분하지만 정확도 주장에는 부족)
소형 모델만 테스트 완료(RTX 3070 Ti에서 1.5B-3B), 7B+ 결과는 보류 중
최소 1 Gbps 이상 대역폭 필요(3B 모델의 KV 캐시는 샘플당 약 130 MB)
자체 호스팅 전용(KV 캐시 접근 필요, OpenAI/Anthropic 등 API와는 작동 안 함)
현재 동일 모델만 지원(교차 모델 구현은 존재하지만 벤치마크 미완료)
텍스트 대비 잠재 상태가 17-54배 더 많은 VRAM 사용(단계 간 KV 캐시 유지 필요)

시작하기

설치: pip install avp

두 가지 API 수준 제공:

import avp
msg = avp.pack("Hello", model="Qwen/Qwen2.5-7B-Instruct", think_steps=20)
answer = avp.unpack(msg, model="Qwen/Qwen2.5-7B-Instruct")

또는 더 많은 제어를 원할 경우:

from avp import HuggingFaceConnector
connector = HuggingFaceConnector.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct")
context = connector.think("이 문제를 분석하세요", steps=20)
answer = connector.generate("해결하세요.", context=context)

vLLM 커넥터도 사용 가능: pip install "avp[vllm]"