Qwen 3.6-35B-A3B KV Cache: f16 vs q8

Пользователь Reddit провёл sweep по глубине на Qwen 3.6-35B-A3B Q8 с использованием TheTom's TurboQuant Metal форка llama.cpp (GitHub: TheTom/llama-cpp-turboquant, ветка feature/turboquant-kv-cache) на MacBook Pro M5 Max с 128 ГБ унифицированной памяти. Он протестировал четыре типа KV-кэша: f16, q8_0, turbo3 (3-битный) и turbo4 (4-битный), симметричные K и V, с включёнными flash-attn и mlock, от 0 до 1M токенов контекста.

Оборудование и сборка

M5 Max, 128 ГБ унифицированной памяти. Собрано с cmake -B build -DGGML_METAL=ON. Использовался llama-bench, 3 повтора на ячейку, flash-attn включён, mlock включён. 8 часов реального времени за ночь.

Пропускная способность генерации (ток/с)

Глубина	f16	q8_0	turbo3	turbo4
0	89.4	87.4	79.5	79.7
8K	84.2	79.2	72.2	71.2
32K	72.6	67.8	61.5	61.8
128K	44.4	40.7	36.0	37.7
256K	OOM	26.6	22.9	25.5
512K	OOM	OOM	13.3	16.0
1M	OOM	OOM	6.5	OOM

Пропускная способность обработки промптов (ток/с)

Глубина	f16	q8_0	turbo3	turbo4
0	2962	2948	2904	2854
8K	2098	1623	1653	1439
32K	1063	802	784	678
128K	321	245	253	206
256K	OOM	124	128	101
512K	OOM	OOM	66	56
1M	OOM	OOM	30	OOM

Ключевые выводы

На глубине 0 f16 немного опережает по префиллу; turbo3 примерно на 10% медленнее при декодировании.
На 128K префилл turbo3 (253 ток/с) сравнивается с q8_0 (245 ток/с) — меньший кэш снижает нагрузку на пропускную способность.
На 256K turbo3 выигрывает в префилле на 27% по сравнению с turbo4 (128 против 101), но turbo4 выигрывает в декодировании на 11% (25.5 против 22.9). На 512K разница в декодировании увеличивается до +20% (turbo4 16.0 против turbo3 13.3).
turbo3 — единственный тип кэша, который помещается в 1M контекст (6.5 ток/с декодирования). Память на 1M: ~89 ГБ (37 ГБ веса, ~52 ГБ KV-кэш).

Оговорки

Это только один M5 Max. Точки пересечения могут смещаться в зависимости от пропускной способности памяти и количества ядер GPU. Протестированы только симметричные K/V. Асимметричные комбинации (например, -ctk q8_0 -ctv turbo4) не тестировались. Форк TheTom — исследовательского уровня, не включён в основную ветку llama.cpp.

📖 Полный источник: r/LocalLLaMA

Qwen 3.6-35B-A3B KV Cache тестирование: f16 vs q8_0 vs Turbo3 vs Turbo4 на M5 Max до 1M контекста

Оборудование и сборка

Пропускная способность генерации (ток/с)

Пропускная способность обработки промптов (ток/с)

Ключевые выводы

Рекомендации по нагрузкам

Оговорки

👀 Смотрите также

Проблема с выполнением задач в GPT 5.4 и способы её решения

AI-центровая платформа SwitchBot готова к интеграции OpenClaw для улучшенной автоматизации умного дома.

Claude-Code версия 2.1.84 добавляет инструмент PowerShell, переменные окружения и несколько исправлений.

Google подписывает секретный контракт с Пентагоном на "любое законное" использование ИИ