Анализ квантования KV-кэша Qwen 3.6: PPL, KL и асимметрия

Дополнительные тесты Qwen 3.6-35B-A3B Q8 с квантованием KV-кэша с использованием форка TheTom TurboQuant (feature/turboquant-kv-cache) на M5 Max. Этот раунд охватывает перплексию, KL-дивергенцию, асимметричные комбинации K/V и точку данных на глубине 64K.

Результаты качества (перплексия + KL-дивергенция)

Размер контекста 4096 на wikitext-2. f16 используется как базовый для логитов.

q8_0: PPL 5.7433, KL 0.0016, совпадение top-1 токенов 98.64% — практически бесплатно при контексте 4K (разница PPL -0.0005 в пределах ±0.036 stderr).
turbo3 (~4.9x): PPL 5.8092, KL 0.0199, совпадение top-1 93.93% — увеличение PPL примерно на 1%, расхождение токенов на 5 п.п.
turbo4 (~3.8x): PPL 5.7810, KL 0.0131, совпадение top-1 95.28% — находится между q8_0 и turbo3, что соответствует степени сжатия.

Стоимость качества растет с увеличением сжатия, никаких сюрпризов.

Асимметричное K/V тестирование

Декодирование токенов/с с llama-bench, те же флаги, что и при симметричном тестировании. Ключевые конфигурации:

-ctk q8_0 -ctv turbo4 — выделяется: при 256K соответствует пропускной способности симметричного q8_0 (27.1 против 26.6 tg), помещается в 512K, где симметричный q8_0 выдает OOM. Обеспечивает качество префилла как у q8_0 с потолком контекста как у turbo4.
-ctk q8_0 -ctv turbo3: аналогичный трюк, но хуже декодирование (более жесткое квантование V замедляет генерацию).
-ctk f16 -ctv turbo4: не работает на Metal — ядро FlashAttention не оптимизирует эту комбинацию, переключается на универсальное деквантование-внимание. При 8K скорость в 34 раза медленнее, чем симметричный f16; при 128K — в 78 раз медленнее (4.1 т/с pp). Не используйте.

Пример скорости декодирования (т/с) на глубине 128K: q8_0 K/turbo4 V 41.0, q8_0 K/turbo3 V 38.2, f16 K/turbo4 V 2.8.

Строка для глубины 64K

Все семь конфигураций на глубине 65536 (pp512 / tg128 т/с):

f16 симметрично: 602.0 / 59.8
q8_0 симметрично: 479.2 / 57.9
turbo3 симметрично: 469.8 / 49.9
turbo4 симметрично: 418.0 / 55.2
q8_0 K / turbo4 V: 468.2 / 55.9
q8_0 K / turbo3 V: 465.6 / 52.6
f16 K / turbo4 V: 8.3 / 4.9

Кривые префилла почти сходятся на 64K: turbo3 (470) в пределах 2% от q8_0 (479). Режим ограничения пропускной способности включается между 64K и 128K.

Обновленная рекомендация

Для кодирующих агентов (глубокий контекст, много генерируемых токенов): используйте -ctk q8_0 -ctv turbo4. Качество q8_0 на K, экономия turbo4 на V, помещается в 512K. Для RAG или пакетного Q&A (тяжелый префилл, меньшее декодирование) по-прежнему подходит симметричный q8_0 или turbo4.

📖 Читать полный источник: r/LocalLLaMA

Qwen KV 缓存量化深度解析：PPL、KL散度与非对称K/V结果

Результаты качества (перплексия + KL-дивергенция)

Асимметричное K/V тестирование

Строка для глубины 64K

Обновленная рекомендация

👀 Смотрите также

Сообщается о частичном сбое Claude Code в Интернете

Проблемы с прозрачностью стоимости API Claude для независимых разработчиков

18-месячный переписывание кодовой базы Autonoma: уроки по тестированию, техническому долгу и Server Actions

Кими $19/м Обновление: Улучшение OpenClaw с помощью структурированных моделей