Qwen 3.6 27B Бенчмарк квантизации: Q4_K_M vs Q8

Пользователь Reddit протестировал Qwen 3.6 27B в трех вариантах квантования GGUF (BF16, Q4_K_M, Q8_0) с использованием llama-cpp-python через фреймворк Neo AI Engineer. Оценка охватывала 664 образца по трем задачам: HumanEval (генерация кода, 164 образца), HellaSwag (здравый смысл, 100 образцов) и BFCL (вызов функций, 400 образцов).

Результаты бенчмарка

BF16 (размер модели 53,8 ГБ, пиковая RAM 54 ГБ, пропускная способность 15,5 ток/с): HumanEval 56,10% (92/164), HellaSwag 90,00% (90/100), BFCL 63,25% (253/400). Средняя точность: 69,78%.
Q4_K_M (16,8 ГБ, 28 ГБ RAM, 22,5 ток/с): HumanEval 50,61% (83/164), HellaSwag 86,00% (86/100), BFCL 63,00% (252/400). Средняя: 66,54%.
Q8_0 (28,6 ГБ, 42 ГБ RAM, 18,0 ток/с): HumanEval 52,44% (86/164), HellaSwag 83,00% (83/100), BFCL 63,00% (252/400). Средняя: 66,15%.

Основные выводы

Q4_K_M — лучший практический вариант. Он сохраняет точность BFCL (63,00% против 63,25%), теряет всего ~5,5 пункта на HumanEval и отстает от BF16 на ~4 пункта по HellaSwag. Компромиссы: в 1,45 раза быстрее BF16, на 48% меньше пиковой RAM, на 68,8% меньше файл и практически идентичная производительность вызова функций. Q8_0 разочаровал: он улучшил HumanEval всего на ~1,8 пункта по сравнению с Q4_K_M, но использовал 42 ГБ RAM против 28 ГБ, был медленнее и показал более низкие результаты по HellaSwag.

Для локального/CPU развертывания рекомендуется Q4_K_M, если только нагрузка не сосредоточена на генерации кода. Для максимального качества по-прежнему лучшим является BF16.

Настройка оценки

Варианты GGUF через llama-cpp-python с n_ctx: 32768, чекпоинтированная оценка. Фреймворк Neo AI Engineer построил конвейер оценки GGUF, обработал чекпоинтированные запуски и объединил результаты. Полное тематическое исследование с фрагментами кода приведено в оригинальных комментариях Reddit.

📖 Читать полный источник: r/LocalLLaMA

Бенчмарк квантизации Qwen 3.6 27B: Q4_K_M превосходит Q8_0 по практическим компромиссам

Результаты бенчмарка

Основные выводы

Настройка оценки

👀 Смотрите также

Связать код Claude с чат-приложениями для удаленного взаимодействия

cowork-session-sync v1.0.0 обеспечивает непрерывность сессии для Claude Cowork.

CRMy: Открытая CRM и движок контекста клиентов для OpenClaw

AI Token Monitor: Инструмент для macOS отслеживает локальное использование Claude и расходы