KV 캐시 메모리 비용 비교: GPT-2 300KiB, Llama 3 128KiB, DeepSeek V3 68.6KiB

모델 아키텍처별 KV 캐시 메모리 비용

KV 캐시 아키텍처 진화에 대한 최근 분석은 트랜스포머 모델 간 메모리 효율성의 상당한 개선을 보여줍니다. 이 진행 과정은 다양한 어텐션 메커니즘이 추론 중 대화 컨텍스트를 유지하는 데 필요한 GPU 메모리를 어떻게 줄였는지 보여줍니다.

구체적인 아키텍처 비교

GPT-2 (2019): 300 KiB/token. 모든 헤드가 자체 키와 값을 공유 없이 유지하는 멀티헤드 어텐션 사용. 4,000 토큰 대화는 모델 가중치와 별도로 캐시만 약 1.2GB의 GPU 메모리가 필요합니다.
Llama 3 (2024): 128 KiB/token. 여러 쿼리 헤드가 동일한 KV 쌍을 공유하는 그룹화된 쿼리 어텐션 구현. 많은 헤드가 중복 표현을 학습한다는 통찰에 기반하여 GPT-2 비용의 절반 미만입니다.
DeepSeek V3 (2024): 68.6 KiB/token. KV 쌍을 저차원 잠재 공간으로 압축하고 추론 시 해제하는 멀티헤드 잠재 어텐션 사용. MoE를 통해 370억 개가 활성화된 6710억 파라미터 모델입니다. V3 아키텍처가 기반으로 한 DeepSeek V2의 제거 연구는 압축된 표현이 여러 벤치마크에서 표준 MHA와 동등하거나 약간 우수함을 보여주었습니다.
Gemma 3 (2025): GQA와 5:1 국지-전역 어텐션 레이어를 갖춘 슬라이딩 윈도우 사용. 국지 레이어는 1,024 토큰만 참조합니다. 공격적인 필터링으로 인한 거의 없는 퍼플렉서티 손실을 보여줍니다.
Mamba/SSM (2023): KV 캐시 전혀 없음. 토큰당 업데이트되는 고정 크기 은닉 상태 사용. 모델은 모든 것을 저장하고 나중에 참조하는 대신 실시간으로 압축할 내용을 결정합니다.

아키텍처적 격차와 실제적 함의

이 분석은 현재 아키텍처에서 작업 메모리와 영구 지식 사이의 격차를 강조합니다. KV 캐시는 수초에서 수분(보고된 캐시 수명은 공급자와 부하에 따라 5-10분 다양) 동안 유지된 후 사라집니다. 일시적 캐시와 영구 가중치 사이에는 '지난 화요일에 이 사용자와 대화했음'과 같은 정보를 위한 기본적인 중기 기억이나 아키텍처적 슬롯이 없습니다.

Gemma 3 (2025): GQA와 5:1 국지-전역 어텐션 레이어를 갖춘 슬라이딩 윈도우 사용. 국지 레이어는 1,024 토큰만 참조합니다. 공격적인 필터링으로 인한 거의 없는 퍼플렉서티 손실을 보여줍니다.

Mamba/SSM (2023): KV 캐시 전혀 없음. 토큰당 업데이트되는 고정 크기 은닉 상태 사용. 모델은 모든 것을 저장하고 나중에 참조하는 대신 실시간으로 압축할 내용을 결정합니다.

아키텍처적 격차와 실제적 함의

RAG, 파일 시스템, 벡터 DB, 정제된 컨텍스트를 담은 시스템 프롬프트와 같은 현재 솔루션은 '아키텍처적 공허 위의 다리'로 설명됩니다. 내부 중기 저장 장치 없이 모델에 덧붙인 조회 시스템입니다.

압축 문제는 이 한계를 예시합니다. 컨텍스트가 너무 커지면 모델은 자체 기록을 요약하고 캐시를 지운 후 요약에서 계속 진행합니다. 이는 정밀도 손실(여섯 가지 규칙을 가진 출판 정책이 '편집 지침에 관한 것'이 됨)과 모델이 손실된 내용을 알지 못한 채 저하된 컨텍스트에서 자신 있게 작동하는 결과를 초래할 수 있습니다.

Cursor의 학습된 압축 접근법은 모델이 단순히 압축을 프롬프트하는 대신 RL을 통해 잘 자체 요약하도록 훈련하지만, 증거는 하나의 코딩 벤치마크로 제한됩니다. 코드는 깨끗한 보상 신호(테스트 통과 또는 실패)를 제공하는 반면, 편집 노트 압축, 전략적 계획, 또는 중요한 세부사항이 많은 메시지 동안 필요하지 않을 대화와 같은 시나리오에서는 그렇지 않습니다.

📖 Read the full source: r/LocalLLaMA