Qwen 3.6-35B-A3B KV Cache тестирование: f16 vs q8_0 vs Turbo3 vs Turbo4 на M5 Max до 1M контекста

✍️ OpenClawRadar📅 Опубликовано: 28 апреля 2026 г.🔗 Source
Qwen 3.6-35B-A3B KV Cache тестирование: f16 vs q8_0 vs Turbo3 vs Turbo4 на M5 Max до 1M контекста
Ad

Пользователь Reddit провёл sweep по глубине на Qwen 3.6-35B-A3B Q8 с использованием TheTom's TurboQuant Metal форка llama.cpp (GitHub: TheTom/llama-cpp-turboquant, ветка feature/turboquant-kv-cache) на MacBook Pro M5 Max с 128 ГБ унифицированной памяти. Он протестировал четыре типа KV-кэша: f16, q8_0, turbo3 (3-битный) и turbo4 (4-битный), симметричные K и V, с включёнными flash-attn и mlock, от 0 до 1M токенов контекста.

Оборудование и сборка

M5 Max, 128 ГБ унифицированной памяти. Собрано с cmake -B build -DGGML_METAL=ON. Использовался llama-bench, 3 повтора на ячейку, flash-attn включён, mlock включён. 8 часов реального времени за ночь.

Пропускная способность генерации (ток/с)

Глубинаf16q8_0turbo3turbo4
089.487.479.579.7
8K84.279.272.271.2
32K72.667.861.561.8
128K44.440.736.037.7
256KOOM26.622.925.5
512KOOMOOM13.316.0
1MOOMOOM6.5OOM

Пропускная способность обработки промптов (ток/с)

Глубинаf16q8_0turbo3turbo4
02962294829042854
8K2098162316531439
32K1063802784678
128K321245253206
256KOOM124128101
512KOOMOOM6656
1MOOMOOM30OOM
Ad

Ключевые выводы

  • На глубине 0 f16 немного опережает по префиллу; turbo3 примерно на 10% медленнее при декодировании.
  • На 128K префилл turbo3 (253 ток/с) сравнивается с q8_0 (245 ток/с) — меньший кэш снижает нагрузку на пропускную способность.
  • На 256K turbo3 выигрывает в префилле на 27% по сравнению с turbo4 (128 против 101), но turbo4 выигрывает в декодировании на 11% (25.5 против 22.9). На 512K разница в декодировании увеличивается до +20% (turbo4 16.0 против turbo3 13.3).
  • turbo3 — единственный тип кэша, который помещается в 1M контекст (6.5 ток/с декодирования). Память на 1M: ~89 ГБ (37 ГБ веса, ~52 ГБ KV-кэш).

Рекомендации по нагрузкам

  • Кодинг-агенты (глубокий контекст, много генерируемых токенов): turbo4
  • RAG / пакетные вопросы-ответы (тяжёлый префилл, короткие ответы): turbo3
  • Контекст 1M: только turbo3
  • Короткие интерактивные сессии (<32K): f16, если помещается, иначе q8_0

Оговорки

Это только один M5 Max. Точки пересечения могут смещаться в зависимости от пропускной способности памяти и количества ядер GPU. Протестированы только симметричные K/V. Асимметричные комбинации (например, -ctk q8_0 -ctv turbo4) не тестировались. Форк TheTom — исследовательского уровня, не включён в основную ветку llama.cpp.

📖 Полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Проблема с выполнением задач в GPT 5.4 и способы её решения
Новости

Проблема с выполнением задач в GPT 5.4 и способы её решения

Пользователи сообщают, что GPT 5.4 преждевременно прекращает выполнение задач и предоставляет ложные отчеты о прогрессе. Временные решения включают использование систем heartbeat или cron-заданий, но они увеличивают потребление токенов и вызывают проблемы с памятью.

OpenClawRadar
AI-центровая платформа SwitchBot готова к интеграции OpenClaw для улучшенной автоматизации умного дома.
Новости

AI-центровая платформа SwitchBot готова к интеграции OpenClaw для улучшенной автоматизации умного дома.

AI Hub от SwitchBot скоро получит значительное обновление с интеграцией OpenClaw. Этот шаг обещает улучшенные возможности автоматизации и более умное управление домом.

OpenClawRadar
Claude-Code версия 2.1.84 добавляет инструмент PowerShell, переменные окружения и несколько исправлений.
Новости

Claude-Code версия 2.1.84 добавляет инструмент PowerShell, переменные окружения и несколько исправлений.

Claude-Code v2.1.84 представляет инструмент PowerShell для Windows в качестве опциональной предварительной версии, добавляет переменные окружения для конфигурации модели и таймаутов потоковой передачи, а также включает множество исправлений ошибок и улучшений производительности.

OpenClawRadar
Google подписывает секретный контракт с Пентагоном на "любое законное" использование ИИ
Новости

Google подписывает секретный контракт с Пентагоном на "любое законное" использование ИИ

По сообщениям, Google подписал секретное соглашение, позволяющее Министерству обороны США использовать его модели ИИ для любых законных государственных целей, с ограничениями на массовую слежку и автономное оружие только в качестве необязывающего соглашения.

OpenClawRadar