KV 캐시 아키텍처 진화: GPT-2부터 맘바까지

모델 아키텍처별 KV 캐시 메모리 비용
KV 캐시 아키텍처 진화에 대한 최근 분석은 트랜스포머 모델 간 메모리 효율성의 상당한 개선을 보여줍니다. 이 진행 과정은 다양한 어텐션 메커니즘이 추론 중 대화 컨텍스트를 유지하는 데 필요한 GPU 메모리를 어떻게 줄였는지 보여줍니다.
구체적인 아키텍처 비교
- GPT-2 (2019): 300 KiB/token. 모든 헤드가 자체 키와 값을 공유 없이 유지하는 멀티헤드 어텐션 사용. 4,000 토큰 대화는 모델 가중치와 별도로 캐시만 약 1.2GB의 GPU 메모리가 필요합니다.
- Llama 3 (2024): 128 KiB/token. 여러 쿼리 헤드가 동일한 KV 쌍을 공유하는 그룹화된 쿼리 어텐션 구현. 많은 헤드가 중복 표현을 학습한다는 통찰에 기반하여 GPT-2 비용의 절반 미만입니다.
- DeepSeek V3 (2024): 68.6 KiB/token. KV 쌍을 저차원 잠재 공간으로 압축하고 추론 시 해제하는 멀티헤드 잠재 어텐션 사용. MoE를 통해 370억 개가 활성화된 6710억 파라미터 모델입니다. V3 아키텍처가 기반으로 한 DeepSeek V2의 제거 연구는 압축된 표현이 여러 벤치마크에서 표준 MHA와 동등하거나 약간 우수함을 보여주었습니다.
- Gemma 3 (2025): GQA와 5:1 국지-전역 어텐션 레이어를 갖춘 슬라이딩 윈도우 사용. 국지 레이어는 1,024 토큰만 참조합니다. 공격적인 필터링으로 인한 거의 없는 퍼플렉서티 손실을 보여줍니다.
- Mamba/SSM (2023): KV 캐시 전혀 없음. 토큰당 업데이트되는 고정 크기 은닉 상태 사용. 모델은 모든 것을 저장하고 나중에 참조하는 대신 실시간으로 압축할 내용을 결정합니다.
아키텍처적 격차와 실제적 함의
이 분석은 현재 아키텍처에서 작업 메모리와 영구 지식 사이의 격차를 강조합니다. KV 캐시는 수초에서 수분(보고된 캐시 수명은 공급자와 부하에 따라 5-10분 다양) 동안 유지된 후 사라집니다. 일시적 캐시와 영구 가중치 사이에는 '지난 화요일에 이 사용자와 대화했음'과 같은 정보를 위한 기본적인 중기 기억이나 아키텍처적 슬롯이 없습니다.
아키텍처적 격차와 실제적 함의
이 분석은 현재 아키텍처에서 작업 메모리와 영구 지식 사이의 격차를 강조합니다. KV 캐시는 수초에서 수분(보고된 캐시 수명은 공급자와 부하에 따라 5-10분 다양) 동안 유지된 후 사라집니다. 일시적 캐시와 영구 가중치 사이에는 '지난 화요일에 이 사용자와 대화했음'과 같은 정보를 위한 기본적인 중기 기억이나 아키텍처적 슬롯이 없습니다.
RAG, 파일 시스템, 벡터 DB, 정제된 컨텍스트를 담은 시스템 프롬프트와 같은 현재 솔루션은 '아키텍처적 공허 위의 다리'로 설명됩니다. 내부 중기 저장 장치 없이 모델에 덧붙인 조회 시스템입니다.
압축 문제는 이 한계를 예시합니다. 컨텍스트가 너무 커지면 모델은 자체 기록을 요약하고 캐시를 지운 후 요약에서 계속 진행합니다. 이는 정밀도 손실(여섯 가지 규칙을 가진 출판 정책이 '편집 지침에 관한 것'이 됨)과 모델이 손실된 내용을 알지 못한 채 저하된 컨텍스트에서 자신 있게 작동하는 결과를 초래할 수 있습니다.
Cursor의 학습된 압축 접근법은 모델이 단순히 압축을 프롬프트하는 대신 RL을 통해 잘 자체 요약하도록 훈련하지만, 증거는 하나의 코딩 벤치마크로 제한됩니다. 코드는 깨끗한 보상 신호(테스트 통과 또는 실패)를 제공하는 반면, 편집 노트 압축, 전략적 계획, 또는 중요한 세부사항이 많은 메시지 동안 필요하지 않을 대화와 같은 시나리오에서는 그렇지 않습니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

하이브리드 AI 아키텍처: 오픈소스 구성 요소와 독점 추론 모델의 결합
실용적인 하이브리드 AI 아키텍처가 부상하고 있습니다. 89%의 조직이 비용을 50% 이상 절감하기 위해 오픈소스 구성 요소를 사용하는 반면, 독점 모델은 복잡한 추론 작업을 처리합니다. 오픈소스 프레임워크는 라이선스 협상 없이도 투명성과 미세 조정 기능을 제공합니다.

블룸버그 보도, AI 노출로 인한 미국 일자리 손실 증가 시작
블룸버그는 AI에 노출된 직종에서 미국의 일자리 손실이 심각하다고 보도했으며, Hacker News 토론에서는 개발자와 기타 지식 근로자에 대한 실제 영향을 지목하고 있습니다.

분석: AI 산업을 서브프라임 모기지 위기 패턴과 비교
에드워드 지트론의 분석은 2008년 서브프라임 모기지 위기와 현재 AI 산업 동향 간의 유사점을 도출하며, 변동금리 모기지와 AI 투자 패턴의 유사성에 대한 구체적인 데이터 포인트를 인용합니다.

로컬 vs 클라우드 모델: 하드 코드 생성에서 Qwen-3.6-27B, Gemma-4-31B, Claude Haiku, Codex-Spark 비교
한 사용자가 RTX 5080에서 로컬로 실행한 Qwen-3.6-27B(q4_k_m)와 API 기반 Gemma-4-31B, Claude Haiku 4.5, Codex-Spark를 복잡한 코드 작업에서 비교했습니다. 오직 Codex-Spark만이 완전한 코드를 생성했지만(가져오기 오류 발생), 나머지는 모두 부분적으로 실패했습니다. 비용: Gemma는 803k 입력 토큰에 $0.112를 사용했습니다.