Monarch v3: Вдохновленная NES система постраничной организации KV-памяти для ускорения вывода LLM на 78%

✍️ OpenClawRadar📅 Опубликовано: 13 апреля 2026 г.🔗 Source
Monarch v3: Вдохновленная NES система постраничной организации KV-памяти для ускорения вывода LLM на 78%
Ad

Что делает Monarch v3

Monarch v3 — это реализация с открытым исходным кодом NES-вдохновленного разбиения памяти на страницы для вывода трансформеров, которая решает проблему линейного роста KV-кэша с увеличением длины последовательности. К 4K токенам большая часть KV-кэша остаётся неиспользуемой, но при этом занимает VRAM в полной точности.

Как это работает

Система разделяет KV-кэш на две области:

  • Горячая область: Недавние токены хранятся в полной точности
  • Холодная область: Старые токены сжимаются до ~20 байт каждый (против 64-128 байт горячих)

Четыре компонента работают вместе:

  • Сжатие TurboQuant: Квантует KV в 4-битные целые числа с полярным кодированием и коррекцией остатков, достигая ~97% уменьшения размера с потерей перплексии ~0.3%
  • Скользящее окно вытеснения: Последние N токенов остаются горячими по умолчанию, старые токены сжимаются в холодное хранилище
  • Продвижение на основе внимания: Токены с высоким вниманием возвращаются в горячую область с липким механизмом для предотвращения трэшинга
  • Свопинг страниц: Небольшие пакеты холодных токенов материализуются при доступе с локальным циклом декодирования вместо пакетного matmul

Результаты тестирования

Настройка: TinyLlama-1.1B fp16, 50 сгенерированных токенов

  • Стандартный: 17.01 токенов/с, 2112 МБ VRAM
  • Monarch-v3: 30.42 токенов/с, 2131 МБ VRAM, 512 горячих токенов, 1024 холодных токенов
  • Прирост: +78.7% пропускной способности, +0.9% VRAM
Ad

Упрощённый цикл декодирования

for step in 1..100:
    q = project_query(next_token)
    # Вычисление внимания: только горячие (быстро)
    scores_hot = q @ kv_hot.T
    # Доступ к холодным при высоком внимании (редко)
    if max(scores_hot) < threshold:
        kv_cold_promoted = decompress(cold_pages)
        scores_cold = q @ kv_cold_promoted.T
        # Переместить в горячие для следующего шага
    # Агрегация, softmax, применение внимания ...
    # Вытеснение старых токенов из горячих → холодные
    if len(kv_hot) > window_size:
        evict_oldest_to_cold()

Текущий статус

  • Реализация: Работает на Hugging Face Transformers с пользовательским бэкендом кэша
  • Лицензия: Apache 2.0
  • Статья: Полная техническая спецификация доступна
  • Далее: Запланировано слияние CUDA ядер для холодной декомпрессии

Как попробовать

git clone https://github.com/JohannaWeb/Monarch.git
cd Monarch
pip install -r requirements.txt
python train_tinyllama_fp16.py
python src/benchmark_monarch.py \
    --model models/tinyllama_fp16 \
    --mode both \
    --max-new-tokens 100 \
    --promotion-threshold 0.15 \
    --sticky-threshold 3 \
    --json

Ограничения

Подход основан на недавности (недавние токены = высокое внимание), что работает для большинства задач, но может не подходить для рабочих нагрузок с интенсивным поиском. Извлечение внимания доступно в базовых моделях, но не в чат-вариантах; запасной вариант использует только оконное разбиение на страницы.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Fewshell: Самостоятельно размещенный SSH-копайлот, отказывающийся выполнять команды без одобрения человека
Инструменты

Fewshell: Самостоятельно размещенный SSH-копайлот, отказывающийся выполнять команды без одобрения человека

Fewshell — это мобильный+десктопный SSH-копайлот, требующий обязательного одобрения человека для каждой команды — нет настройки для автоматического одобрения. Создан бывшим инженером Amazon AI, занимающимся исследованиями в области безопасности ИИ.

OpenClawRadar
В реальном времени добавлен анализ акций в Claude Desktop через MCP-сервер
Инструменты

В реальном времени добавлен анализ акций в Claude Desktop через MCP-сервер

Разработчик создал MCP-сервер под названием agent-toolbelt, который добавляет возможности анализа акций в реальном времени в Claude Desktop и Claude Code, предоставляя живые данные для инвестиционного анализа вместо предположений на основе обучающих данных Claude.

OpenClawRadar
Шесть репозиториев GitHub для разработки кода с Claude
Инструменты

Шесть репозиториев GitHub для разработки кода с Claude

Пользователь Reddit протестировал и поделился шестью репозиториями GitHub, предназначенными для улучшения проектов Claude Code, включая инструменты для структурированной разработки, генерации пользовательского интерфейса, управления задачами, памяти, изучения экосистемы и автоматизации рабочих процессов.

OpenClawRadar
OpenClaw 2026.3.23 добавляет поддержку провайдера DeepSeek, модель оплаты по факту использования для Qwen и улучшения для Chrome MCP.
Инструменты

OpenClaw 2026.3.23 добавляет поддержку провайдера DeepSeek, модель оплаты по факту использования для Qwen и улучшения для Chrome MCP.

OpenClaw v2026.3.23 представляет плагин провайдера DeepSeek, почасовую оплату Qwen, автоматическое ценообразование OpenRouter с порядком мышления Anthropic, ожидание вкладок Chrome MCP, а также исправления для Discord/Slack/Matrix и веб-интерфейса.

OpenClawRadar