Qwen KV 缓存量化深度解析:PPL、KL散度与非对称K/V结果

Дополнительные тесты Qwen 3.6-35B-A3B Q8 с квантованием KV-кэша с использованием форка TheTom TurboQuant (feature/turboquant-kv-cache) на M5 Max. Этот раунд охватывает перплексию, KL-дивергенцию, асимметричные комбинации K/V и точку данных на глубине 64K.
Результаты качества (перплексия + KL-дивергенция)
Размер контекста 4096 на wikitext-2. f16 используется как базовый для логитов.
- q8_0: PPL 5.7433, KL 0.0016, совпадение top-1 токенов 98.64% — практически бесплатно при контексте 4K (разница PPL -0.0005 в пределах ±0.036 stderr).
- turbo3 (~4.9x): PPL 5.8092, KL 0.0199, совпадение top-1 93.93% — увеличение PPL примерно на 1%, расхождение токенов на 5 п.п.
- turbo4 (~3.8x): PPL 5.7810, KL 0.0131, совпадение top-1 95.28% — находится между q8_0 и turbo3, что соответствует степени сжатия.
Стоимость качества растет с увеличением сжатия, никаких сюрпризов.
Асимметричное K/V тестирование
Декодирование токенов/с с llama-bench, те же флаги, что и при симметричном тестировании. Ключевые конфигурации:
-ctk q8_0 -ctv turbo4— выделяется: при 256K соответствует пропускной способности симметричного q8_0 (27.1 против 26.6 tg), помещается в 512K, где симметричный q8_0 выдает OOM. Обеспечивает качество префилла как у q8_0 с потолком контекста как у turbo4.-ctk q8_0 -ctv turbo3: аналогичный трюк, но хуже декодирование (более жесткое квантование V замедляет генерацию).-ctk f16 -ctv turbo4: не работает на Metal — ядро FlashAttention не оптимизирует эту комбинацию, переключается на универсальное деквантование-внимание. При 8K скорость в 34 раза медленнее, чем симметричный f16; при 128K — в 78 раз медленнее (4.1 т/с pp). Не используйте.
Пример скорости декодирования (т/с) на глубине 128K: q8_0 K/turbo4 V 41.0, q8_0 K/turbo3 V 38.2, f16 K/turbo4 V 2.8.
Строка для глубины 64K
Все семь конфигураций на глубине 65536 (pp512 / tg128 т/с):
- f16 симметрично: 602.0 / 59.8
- q8_0 симметрично: 479.2 / 57.9
- turbo3 симметрично: 469.8 / 49.9
- turbo4 симметрично: 418.0 / 55.2
- q8_0 K / turbo4 V: 468.2 / 55.9
- q8_0 K / turbo3 V: 465.6 / 52.6
- f16 K / turbo4 V: 8.3 / 4.9
Кривые префилла почти сходятся на 64K: turbo3 (470) в пределах 2% от q8_0 (479). Режим ограничения пропускной способности включается между 64K и 128K.
Обновленная рекомендация
Для кодирующих агентов (глубокий контекст, много генерируемых токенов): используйте -ctk q8_0 -ctv turbo4. Качество q8_0 на K, экономия turbo4 на V, помещается в 512K. Для RAG или пакетного Q&A (тяжелый префилл, меньшее декодирование) по-прежнему подходит симметричный q8_0 или turbo4.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Сообщается о частичном сбое Claude Code в Интернете
Автоматическое обновление статуса из r/ClaudeAI сообщает о частичном сбое Claude Code в веб-версии, начиная с 2026-05-09T23:33:21.000Z. Следите за официальной страницей статуса и мегатредом сообщества для получения обновлений.

Проблемы с прозрачностью стоимости API Claude для независимых разработчиков
Обсуждение на Reddit показывает, что отсутствие детального отслеживания затрат в API Claude Sonnet может заставить независимых разработчиков отказаться от него, несмотря на качество, поскольку счета на $400–$900 застают их врасплох из-за недостаточной наблюдаемости по сравнению с мониторингом в стиле AWS.

18-месячный переписывание кодовой базы Autonoma: уроки по тестированию, техническому долгу и Server Actions
Autonoma выбросила 1,5 года кода после масштабирования с 2 до 14 инженеров, назвав отсутствие тестов, нестрогий TypeScript и ограничения Server Actions ключевыми причинами для переписывания.

Кими $19/м Обновление: Улучшение OpenClaw с помощью структурированных моделей
Kimi представляет свое последнее обновление, стоимостью $19 в месяц, ориентированное на улучшение структуры моделей в OpenClaw. Это обновление обещает упрощенные операции и улучшенные функции автоматизации.