Qwen 3.6-35B-A3B KV Cache тестирование: f16 vs q8_0 vs Turbo3 vs Turbo4 на M5 Max до 1M контекста

Пользователь Reddit провёл sweep по глубине на Qwen 3.6-35B-A3B Q8 с использованием TheTom's TurboQuant Metal форка llama.cpp (GitHub: TheTom/llama-cpp-turboquant, ветка feature/turboquant-kv-cache) на MacBook Pro M5 Max с 128 ГБ унифицированной памяти. Он протестировал четыре типа KV-кэша: f16, q8_0, turbo3 (3-битный) и turbo4 (4-битный), симметричные K и V, с включёнными flash-attn и mlock, от 0 до 1M токенов контекста.
Оборудование и сборка
M5 Max, 128 ГБ унифицированной памяти. Собрано с cmake -B build -DGGML_METAL=ON. Использовался llama-bench, 3 повтора на ячейку, flash-attn включён, mlock включён. 8 часов реального времени за ночь.
Пропускная способность генерации (ток/с)
| Глубина | f16 | q8_0 | turbo3 | turbo4 |
|---|---|---|---|---|
| 0 | 89.4 | 87.4 | 79.5 | 79.7 |
| 8K | 84.2 | 79.2 | 72.2 | 71.2 |
| 32K | 72.6 | 67.8 | 61.5 | 61.8 |
| 128K | 44.4 | 40.7 | 36.0 | 37.7 |
| 256K | OOM | 26.6 | 22.9 | 25.5 |
| 512K | OOM | OOM | 13.3 | 16.0 |
| 1M | OOM | OOM | 6.5 | OOM |
Пропускная способность обработки промптов (ток/с)
| Глубина | f16 | q8_0 | turbo3 | turbo4 |
|---|---|---|---|---|
| 0 | 2962 | 2948 | 2904 | 2854 |
| 8K | 2098 | 1623 | 1653 | 1439 |
| 32K | 1063 | 802 | 784 | 678 |
| 128K | 321 | 245 | 253 | 206 |
| 256K | OOM | 124 | 128 | 101 |
| 512K | OOM | OOM | 66 | 56 |
| 1M | OOM | OOM | 30 | OOM |
Ключевые выводы
- На глубине 0 f16 немного опережает по префиллу; turbo3 примерно на 10% медленнее при декодировании.
- На 128K префилл turbo3 (253 ток/с) сравнивается с q8_0 (245 ток/с) — меньший кэш снижает нагрузку на пропускную способность.
- На 256K turbo3 выигрывает в префилле на 27% по сравнению с turbo4 (128 против 101), но turbo4 выигрывает в декодировании на 11% (25.5 против 22.9). На 512K разница в декодировании увеличивается до +20% (turbo4 16.0 против turbo3 13.3).
- turbo3 — единственный тип кэша, который помещается в 1M контекст (6.5 ток/с декодирования). Память на 1M: ~89 ГБ (37 ГБ веса, ~52 ГБ KV-кэш).
Рекомендации по нагрузкам
- Кодинг-агенты (глубокий контекст, много генерируемых токенов): turbo4
- RAG / пакетные вопросы-ответы (тяжёлый префилл, короткие ответы): turbo3
- Контекст 1M: только turbo3
- Короткие интерактивные сессии (<32K): f16, если помещается, иначе q8_0
Оговорки
Это только один M5 Max. Точки пересечения могут смещаться в зависимости от пропускной способности памяти и количества ядер GPU. Протестированы только симметричные K/V. Асимметричные комбинации (например, -ctk q8_0 -ctv turbo4) не тестировались. Форк TheTom — исследовательского уровня, не включён в основную ветку llama.cpp.
📖 Полный источник: r/LocalLLaMA
👀 Смотрите также

Проблема с выполнением задач в GPT 5.4 и способы её решения
Пользователи сообщают, что GPT 5.4 преждевременно прекращает выполнение задач и предоставляет ложные отчеты о прогрессе. Временные решения включают использование систем heartbeat или cron-заданий, но они увеличивают потребление токенов и вызывают проблемы с памятью.

AI-центровая платформа SwitchBot готова к интеграции OpenClaw для улучшенной автоматизации умного дома.
AI Hub от SwitchBot скоро получит значительное обновление с интеграцией OpenClaw. Этот шаг обещает улучшенные возможности автоматизации и более умное управление домом.

Claude-Code версия 2.1.84 добавляет инструмент PowerShell, переменные окружения и несколько исправлений.
Claude-Code v2.1.84 представляет инструмент PowerShell для Windows в качестве опциональной предварительной версии, добавляет переменные окружения для конфигурации модели и таймаутов потоковой передачи, а также включает множество исправлений ошибок и улучшений производительности.

Google подписывает секретный контракт с Пентагоном на "любое законное" использование ИИ
По сообщениям, Google подписал секретное соглашение, позволяющее Министерству обороны США использовать его модели ИИ для любых законных государственных целей, с ограничениями на массовую слежку и автономное оружие только в качестве необязывающего соглашения.