Qwen KV 缓存量化深度解析:PPL、KL散度与非对称K/V结果

✍️ OpenClawRadar📅 Опубликовано: 29 апреля 2026 г.🔗 Source
Qwen KV 缓存量化深度解析:PPL、KL散度与非对称K/V结果
Ad

Дополнительные тесты Qwen 3.6-35B-A3B Q8 с квантованием KV-кэша с использованием форка TheTom TurboQuant (feature/turboquant-kv-cache) на M5 Max. Этот раунд охватывает перплексию, KL-дивергенцию, асимметричные комбинации K/V и точку данных на глубине 64K.

Результаты качества (перплексия + KL-дивергенция)

Размер контекста 4096 на wikitext-2. f16 используется как базовый для логитов.

  • q8_0: PPL 5.7433, KL 0.0016, совпадение top-1 токенов 98.64% — практически бесплатно при контексте 4K (разница PPL -0.0005 в пределах ±0.036 stderr).
  • turbo3 (~4.9x): PPL 5.8092, KL 0.0199, совпадение top-1 93.93% — увеличение PPL примерно на 1%, расхождение токенов на 5 п.п.
  • turbo4 (~3.8x): PPL 5.7810, KL 0.0131, совпадение top-1 95.28% — находится между q8_0 и turbo3, что соответствует степени сжатия.

Стоимость качества растет с увеличением сжатия, никаких сюрпризов.

Асимметричное K/V тестирование

Декодирование токенов/с с llama-bench, те же флаги, что и при симметричном тестировании. Ключевые конфигурации:

  • -ctk q8_0 -ctv turbo4 — выделяется: при 256K соответствует пропускной способности симметричного q8_0 (27.1 против 26.6 tg), помещается в 512K, где симметричный q8_0 выдает OOM. Обеспечивает качество префилла как у q8_0 с потолком контекста как у turbo4.
  • -ctk q8_0 -ctv turbo3: аналогичный трюк, но хуже декодирование (более жесткое квантование V замедляет генерацию).
  • -ctk f16 -ctv turbo4: не работает на Metal — ядро FlashAttention не оптимизирует эту комбинацию, переключается на универсальное деквантование-внимание. При 8K скорость в 34 раза медленнее, чем симметричный f16; при 128K — в 78 раз медленнее (4.1 т/с pp). Не используйте.

Пример скорости декодирования (т/с) на глубине 128K: q8_0 K/turbo4 V 41.0, q8_0 K/turbo3 V 38.2, f16 K/turbo4 V 2.8.

Ad

Строка для глубины 64K

Все семь конфигураций на глубине 65536 (pp512 / tg128 т/с):

  • f16 симметрично: 602.0 / 59.8
  • q8_0 симметрично: 479.2 / 57.9
  • turbo3 симметрично: 469.8 / 49.9
  • turbo4 симметрично: 418.0 / 55.2
  • q8_0 K / turbo4 V: 468.2 / 55.9
  • q8_0 K / turbo3 V: 465.6 / 52.6
  • f16 K / turbo4 V: 8.3 / 4.9

Кривые префилла почти сходятся на 64K: turbo3 (470) в пределах 2% от q8_0 (479). Режим ограничения пропускной способности включается между 64K и 128K.

Обновленная рекомендация

Для кодирующих агентов (глубокий контекст, много генерируемых токенов): используйте -ctk q8_0 -ctv turbo4. Качество q8_0 на K, экономия turbo4 на V, помещается в 512K. Для RAG или пакетного Q&A (тяжелый префилл, меньшее декодирование) по-прежнему подходит симметричный q8_0 или turbo4.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Сообщается о частичном сбое Claude Code в Интернете
Новости

Сообщается о частичном сбое Claude Code в Интернете

Автоматическое обновление статуса из r/ClaudeAI сообщает о частичном сбое Claude Code в веб-версии, начиная с 2026-05-09T23:33:21.000Z. Следите за официальной страницей статуса и мегатредом сообщества для получения обновлений.

OpenClawRadar
Проблемы с прозрачностью стоимости API Claude для независимых разработчиков
Новости

Проблемы с прозрачностью стоимости API Claude для независимых разработчиков

Обсуждение на Reddit показывает, что отсутствие детального отслеживания затрат в API Claude Sonnet может заставить независимых разработчиков отказаться от него, несмотря на качество, поскольку счета на $400–$900 застают их врасплох из-за недостаточной наблюдаемости по сравнению с мониторингом в стиле AWS.

OpenClawRadar
18-месячный переписывание кодовой базы Autonoma: уроки по тестированию, техническому долгу и Server Actions
Новости

18-месячный переписывание кодовой базы Autonoma: уроки по тестированию, техническому долгу и Server Actions

Autonoma выбросила 1,5 года кода после масштабирования с 2 до 14 инженеров, назвав отсутствие тестов, нестрогий TypeScript и ограничения Server Actions ключевыми причинами для переписывания.

OpenClawRadar
Кими $19/м Обновление: Улучшение OpenClaw с помощью структурированных моделей
Новости

Кими $19/м Обновление: Улучшение OpenClaw с помощью структурированных моделей

Kimi представляет свое последнее обновление, стоимостью $19 в месяц, ориентированное на улучшение структуры моделей в OpenClaw. Это обновление обещает упрощенные операции и улучшенные функции автоматизации.

OpenClawRadar