Эволюция архитектуры KV-кэша: от GPT-2 до Mamba

Затраты памяти на KV-кэш в различных архитектурах моделей
Недавний анализ эволюции архитектуры KV-кэша выявил значительные улучшения в эффективности использования памяти в трансформерных моделях. Эта прогрессия показывает, как различные механизмы внимания сократили объём памяти GPU, необходимый для поддержания контекста разговора во время инференса.
Сравнение конкретных архитектур
- GPT-2 (2019): 300 КБайт/токен. Использует многоголовое внимание, где каждая голова поддерживает собственные ключи и значения без совместного использования. Разговор на 4000 токенов требует примерно 1,2 ГБ памяти GPU только для кэша, отдельно от весов модели.
- Llama 3 (2024): 128 КБайт/токен. Реализует групповое запросное внимание, где несколько голов запросов используют одни и те же пары ключ-значение. Это менее половины затрат GPT-2, основано на инсайте, что многие головы изучали избыточные представления.
- DeepSeek V3 (2024): 68,6 КБайт/токен. Использует многоголовое латентное внимание, которое сжимает пары ключ-значение в пространство меньшей размерности и распаковывает их при инференсе. Это модель с 671B параметров, из которых 37B активны через MoE. Абляционные исследования DeepSeek V2, на которых строится архитектура V3, показали, что сжатое представление соответствует или немного превосходит стандартное MHA в нескольких бенчмарках.
- Gemma 3 (2025): Использует GQA плюс скользящее окно с соотношением локальных к глобальным слоям внимания 5:1, где локальные слои обращают внимание только на 1024 токена. Показывает почти нулевую потерю перплексии от агрессивной фильтрации.
- Mamba/SSM (2023): KV-кэш отсутствует полностью. Использует скрытое состояние фиксированного размера, обновляемое для каждого токена. Модель решает, что сжимать в реальном времени, вместо того чтобы хранить всё и обрабатывать позже.
Архитектурные пробелы и практические последствия
Анализ подчёркивает разрыв между рабочей памятью и постоянными знаниями в современных архитектурах. KV-кэш сохраняется от секунд до минут (заявленное время жизни кэша составляет 5-10 минут, варьируется в зависимости от провайдера и нагрузки), а затем исчезает. Между временным кэшем и постоянными весами нет встроенной среднесрочной памяти или архитектурного слота для информации вроде "я разговаривал с этим пользователем в прошлый вторник".
Текущие решения, такие как RAG, файловые системы, векторные БД и системные промпты, несущие курируемый контекст, описываются как "мостики через архитектурную пустоту" — системы поиска, прикрученные к моделям без внутреннего среднесрочного хранилища.
Проблема компактификации иллюстрирует это ограничение. Когда контекст становится слишком большим, модели суммируют свою собственную историю, очищают кэш и продолжают с этого резюме. Это может привести к потере точности (политика публикации с шестью правилами превращается в "что-то о редакционных руководствах") и к тому, что модели уверенно работают с ухудшенным контекстом, не зная, что было утрачено.
Подход Cursor с обученной компактификацией обучает модели хорошо само-суммироваться через RL, а не просто промптить сжатие, но доказательства ограничены одним кодировочным бенчмарком. Код предоставляет чистые сигналы вознаграждения (тесты проходят или проваливаются), в отличие от сценариев вроде компактификации редакционных заметок, стратегического планирования или разговоров, где критические детали не понадобятся в течение многих сообщений.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также
Claude Code v2.1.140 Исправления соответствия инструментам агента, зависания /goal, зависания цикла событий Windows
v2.1.140 улучшает сопоставление subagent_type в Agent tool: теперь оно нечувствительно к регистру и разделителям, исправляет зависание /goal при disableAllHooks, устраняет остановку цикла событий Windows из-за отсутствующих исполняемых файлов и многое другое.

Опрос PwC среди генеральных директоров 2026 года: 56% сообщают об отсутствии финансовой отдачи от ИИ, лишь 12% добиваются успеха.
PwC опросила 4454 генеральных директоров в 95 странах и обнаружила, что 56% сообщают об отсутствии финансового влияния от ИИ, в то время как только 12% успешно использовали ИИ как для сокращения затрат, так и для роста доходов. Успешные компании-«Авангард» в 3 раза чаще применяют ИИ непосредственно к продуктам и услугам.

Аудит логов API показывает, что AI-агенты тратят токены впустую из-за раздувания контекстного окна
Аудит Reddit показывает, что агенты Claude сжигают 30 000+ токенов на исследование файлов и многословные логи, прежде чем написать код, что приводит к архитектурной деградации по мере заполнения контекста шумом.

Результаты тестирования: модели Qwen3.5 на Apple Silicon и AMD GPU с ROCm и Vulkan
Разработчик провел бенчмарк моделей Qwen3.5 (35B MoE, 27B плотная, 122B MoE) на компьютерах Apple Silicon Mac и рабочих станциях с GPU AMD, сравнивая бэкенды ROCm и Vulkan с тестами на масштабирование контекста. Используемое оборудование включало M5 Max, M1 Max и три GPU AMD с различными конфигурациями PCIe.