Эволюция архитектуры KV-кэша: от GPT-2 до Mamba

✍️ OpenClawRadar📅 Опубликовано: 29 марта 2026 г.🔗 Source

Затраты памяти на KV-кэш в различных архитектурах моделей

Недавний анализ эволюции архитектуры KV-кэша выявил значительные улучшения в эффективности использования памяти в трансформерных моделях. Эта прогрессия показывает, как различные механизмы внимания сократили объём памяти GPU, необходимый для поддержания контекста разговора во время инференса.

Сравнение конкретных архитектур

GPT-2 (2019): 300 КБайт/токен. Использует многоголовое внимание, где каждая голова поддерживает собственные ключи и значения без совместного использования. Разговор на 4000 токенов требует примерно 1,2 ГБ памяти GPU только для кэша, отдельно от весов модели.
Llama 3 (2024): 128 КБайт/токен. Реализует групповое запросное внимание, где несколько голов запросов используют одни и те же пары ключ-значение. Это менее половины затрат GPT-2, основано на инсайте, что многие головы изучали избыточные представления.
DeepSeek V3 (2024): 68,6 КБайт/токен. Использует многоголовое латентное внимание, которое сжимает пары ключ-значение в пространство меньшей размерности и распаковывает их при инференсе. Это модель с 671B параметров, из которых 37B активны через MoE. Абляционные исследования DeepSeek V2, на которых строится архитектура V3, показали, что сжатое представление соответствует или немного превосходит стандартное MHA в нескольких бенчмарках.
Gemma 3 (2025): Использует GQA плюс скользящее окно с соотношением локальных к глобальным слоям внимания 5:1, где локальные слои обращают внимание только на 1024 токена. Показывает почти нулевую потерю перплексии от агрессивной фильтрации.
Mamba/SSM (2023): KV-кэш отсутствует полностью. Использует скрытое состояние фиксированного размера, обновляемое для каждого токена. Модель решает, что сжимать в реальном времени, вместо того чтобы хранить всё и обрабатывать позже.

Архитектурные пробелы и практические последствия

Анализ подчёркивает разрыв между рабочей памятью и постоянными знаниями в современных архитектурах. KV-кэш сохраняется от секунд до минут (заявленное время жизни кэша составляет 5-10 минут, варьируется в зависимости от провайдера и нагрузки), а затем исчезает. Между временным кэшем и постоянными весами нет встроенной среднесрочной памяти или архитектурного слота для информации вроде "я разговаривал с этим пользователем в прошлый вторник".

Текущие решения, такие как RAG, файловые системы, векторные БД и системные промпты, несущие курируемый контекст, описываются как "мостики через архитектурную пустоту" — системы поиска, прикрученные к моделям без внутреннего среднесрочного хранилища.

Проблема компактификации иллюстрирует это ограничение. Когда контекст становится слишком большим, модели суммируют свою собственную историю, очищают кэш и продолжают с этого резюме. Это может привести к потере точности (политика публикации с шестью правилами превращается в "что-то о редакционных руководствах") и к тому, что модели уверенно работают с ухудшенным контекстом, не зная, что было утрачено.

Подход Cursor с обученной компактификацией обучает модели хорошо само-суммироваться через RL, а не просто промптить сжатие, но доказательства ограничены одним кодировочным бенчмарком. Код предоставляет чистые сигналы вознаграждения (тесты проходят или проваливаются), в отличие от сценариев вроде компактификации редакционных заметок, стратегического планирования или разговоров, где критические детали не понадобятся в течение многих сообщений.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Новости

GitHub Claude-Code v2.1.27 Выпуск: Основные обновления и исправления

Версия Claude-Code v2.1.27 улучшает ведение журналов и исправляет несколько проблем, включая управление контекстом и истечение токенов OAuth в VSCode.

20 апр. 2026 г., 17:38 UTC

OpenClawRadar

Новости

GitHub Copilot переходит на тарификацию по использованию: конец субсидированного ИИ-кодирования

Microsoft начнет взимать с пользователей GitHub Copilot плату в соответствии с фактической стоимостью моделей с 1 июня 2026 года, прекратив субсидирование в размере $20+ в месяц на пользователя. Причиной названо использование агентного ИИ.

28 апр. 2026 г., 20:18 UTC

OpenClawRadar

Новости

Анализ проблем бенчмаркинга TB2 в задаче db-wal-recovery

Анализ Reddit выявляет проблемы с задачей db-wal-recovery в Terminal Bench 2.0, где агенты могут случайно уничтожить улики, открывая базы данных SQLite, и показывает, как инъекция промптов влияет на результаты лидерборда.

17 мар. 2026 г., 09:45 UTC

OpenClawRadar

Новости

Искусственно созданные интерфейсы сходятся в изумрудно-зеленых паттернах дизайна.

Искусственно сгенерированные фронтенд-компоненты перешли от эры фиолетовых градиентов к новой унификации, сосредоточенной на изумрудно-зелёных акцентах, кнопках и состояниях наведения. Эта конвергенция, по-видимому, связана с навыками ИИ и промптами компонентов Tailwind, которые ассоциируют изумрудный цвет с качественным дизайном интерфейса.

16 мар. 2026 г., 09:45 UTC

OpenClawRadar