Эволюция архитектуры KV-кэша: от GPT-2 до Mamba

✍️ OpenClawRadar📅 Опубликовано: 29 марта 2026 г.🔗 Source
Эволюция архитектуры KV-кэша: от GPT-2 до Mamba
Ad

Затраты памяти на KV-кэш в различных архитектурах моделей

Недавний анализ эволюции архитектуры KV-кэша выявил значительные улучшения в эффективности использования памяти в трансформерных моделях. Эта прогрессия показывает, как различные механизмы внимания сократили объём памяти GPU, необходимый для поддержания контекста разговора во время инференса.

Сравнение конкретных архитектур

  • GPT-2 (2019): 300 КБайт/токен. Использует многоголовое внимание, где каждая голова поддерживает собственные ключи и значения без совместного использования. Разговор на 4000 токенов требует примерно 1,2 ГБ памяти GPU только для кэша, отдельно от весов модели.
  • Llama 3 (2024): 128 КБайт/токен. Реализует групповое запросное внимание, где несколько голов запросов используют одни и те же пары ключ-значение. Это менее половины затрат GPT-2, основано на инсайте, что многие головы изучали избыточные представления.
  • DeepSeek V3 (2024): 68,6 КБайт/токен. Использует многоголовое латентное внимание, которое сжимает пары ключ-значение в пространство меньшей размерности и распаковывает их при инференсе. Это модель с 671B параметров, из которых 37B активны через MoE. Абляционные исследования DeepSeek V2, на которых строится архитектура V3, показали, что сжатое представление соответствует или немного превосходит стандартное MHA в нескольких бенчмарках.
  • Gemma 3 (2025): Использует GQA плюс скользящее окно с соотношением локальных к глобальным слоям внимания 5:1, где локальные слои обращают внимание только на 1024 токена. Показывает почти нулевую потерю перплексии от агрессивной фильтрации.
  • Mamba/SSM (2023): KV-кэш отсутствует полностью. Использует скрытое состояние фиксированного размера, обновляемое для каждого токена. Модель решает, что сжимать в реальном времени, вместо того чтобы хранить всё и обрабатывать позже.
Ad

Архитектурные пробелы и практические последствия

Анализ подчёркивает разрыв между рабочей памятью и постоянными знаниями в современных архитектурах. KV-кэш сохраняется от секунд до минут (заявленное время жизни кэша составляет 5-10 минут, варьируется в зависимости от провайдера и нагрузки), а затем исчезает. Между временным кэшем и постоянными весами нет встроенной среднесрочной памяти или архитектурного слота для информации вроде "я разговаривал с этим пользователем в прошлый вторник".

Текущие решения, такие как RAG, файловые системы, векторные БД и системные промпты, несущие курируемый контекст, описываются как "мостики через архитектурную пустоту" — системы поиска, прикрученные к моделям без внутреннего среднесрочного хранилища.

Проблема компактификации иллюстрирует это ограничение. Когда контекст становится слишком большим, модели суммируют свою собственную историю, очищают кэш и продолжают с этого резюме. Это может привести к потере точности (политика публикации с шестью правилами превращается в "что-то о редакционных руководствах") и к тому, что модели уверенно работают с ухудшенным контекстом, не зная, что было утрачено.

Подход Cursor с обученной компактификацией обучает модели хорошо само-суммироваться через RL, а не просто промптить сжатие, но доказательства ограничены одним кодировочным бенчмарком. Код предоставляет чистые сигналы вознаграждения (тесты проходят или проваливаются), в отличие от сценариев вроде компактификации редакционных заметок, стратегического планирования или разговоров, где критические детали не понадобятся в течение многих сообщений.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

🦀
Новости

Claude Code v2.1.140 Исправления соответствия инструментам агента, зависания /goal, зависания цикла событий Windows

v2.1.140 улучшает сопоставление subagent_type в Agent tool: теперь оно нечувствительно к регистру и разделителям, исправляет зависание /goal при disableAllHooks, устраняет остановку цикла событий Windows из-за отсутствующих исполняемых файлов и многое другое.

OpenClawRadar
Опрос PwC среди генеральных директоров 2026 года: 56% сообщают об отсутствии финансовой отдачи от ИИ, лишь 12% добиваются успеха.
Новости

Опрос PwC среди генеральных директоров 2026 года: 56% сообщают об отсутствии финансовой отдачи от ИИ, лишь 12% добиваются успеха.

PwC опросила 4454 генеральных директоров в 95 странах и обнаружила, что 56% сообщают об отсутствии финансового влияния от ИИ, в то время как только 12% успешно использовали ИИ как для сокращения затрат, так и для роста доходов. Успешные компании-«Авангард» в 3 раза чаще применяют ИИ непосредственно к продуктам и услугам.

OpenClawRadar
Аудит логов API показывает, что AI-агенты тратят токены впустую из-за раздувания контекстного окна
Новости

Аудит логов API показывает, что AI-агенты тратят токены впустую из-за раздувания контекстного окна

Аудит Reddit показывает, что агенты Claude сжигают 30 000+ токенов на исследование файлов и многословные логи, прежде чем написать код, что приводит к архитектурной деградации по мере заполнения контекста шумом.

OpenClawRadar
Результаты тестирования: модели Qwen3.5 на Apple Silicon и AMD GPU с ROCm и Vulkan
Новости

Результаты тестирования: модели Qwen3.5 на Apple Silicon и AMD GPU с ROCm и Vulkan

Разработчик провел бенчмарк моделей Qwen3.5 (35B MoE, 27B плотная, 122B MoE) на компьютерах Apple Silicon Mac и рабочих станциях с GPU AMD, сравнивая бэкенды ROCm и Vulkan с тестами на масштабирование контекста. Используемое оборудование включало M5 Max, M1 Max и три GPU AMD с различными конфигурациями PCIe.

OpenClawRadar