Бенчмарк квантизации Qwen 3.6 27B: Q4_K_M превосходит Q8_0 по практическим компромиссам

Пользователь Reddit протестировал Qwen 3.6 27B в трех вариантах квантования GGUF (BF16, Q4_K_M, Q8_0) с использованием llama-cpp-python через фреймворк Neo AI Engineer. Оценка охватывала 664 образца по трем задачам: HumanEval (генерация кода, 164 образца), HellaSwag (здравый смысл, 100 образцов) и BFCL (вызов функций, 400 образцов).
Результаты бенчмарка
- BF16 (размер модели 53,8 ГБ, пиковая RAM 54 ГБ, пропускная способность 15,5 ток/с): HumanEval 56,10% (92/164), HellaSwag 90,00% (90/100), BFCL 63,25% (253/400). Средняя точность: 69,78%.
- Q4_K_M (16,8 ГБ, 28 ГБ RAM, 22,5 ток/с): HumanEval 50,61% (83/164), HellaSwag 86,00% (86/100), BFCL 63,00% (252/400). Средняя: 66,54%.
- Q8_0 (28,6 ГБ, 42 ГБ RAM, 18,0 ток/с): HumanEval 52,44% (86/164), HellaSwag 83,00% (83/100), BFCL 63,00% (252/400). Средняя: 66,15%.
Основные выводы
Q4_K_M — лучший практический вариант. Он сохраняет точность BFCL (63,00% против 63,25%), теряет всего ~5,5 пункта на HumanEval и отстает от BF16 на ~4 пункта по HellaSwag. Компромиссы: в 1,45 раза быстрее BF16, на 48% меньше пиковой RAM, на 68,8% меньше файл и практически идентичная производительность вызова функций. Q8_0 разочаровал: он улучшил HumanEval всего на ~1,8 пункта по сравнению с Q4_K_M, но использовал 42 ГБ RAM против 28 ГБ, был медленнее и показал более низкие результаты по HellaSwag.
Для локального/CPU развертывания рекомендуется Q4_K_M, если только нагрузка не сосредоточена на генерации кода. Для максимального качества по-прежнему лучшим является BF16.
Настройка оценки
Варианты GGUF через llama-cpp-python с n_ctx: 32768, чекпоинтированная оценка. Фреймворк Neo AI Engineer построил конвейер оценки GGUF, обработал чекпоинтированные запуски и объединил результаты. Полное тематическое исследование с фрагментами кода приведено в оригинальных комментариях Reddit.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Связать код Claude с чат-приложениями для удаленного взаимодействия
Проект GitHub под названием cc-connect соединяет Claude Code с платформами обмена сообщениями, такими как Slack и Telegram, позволяя удалённое взаимодействие без необходимости открывать доступ к локальной машине. Агент работает локально, а небольшой мост передаёт сообщения между агентом и чат-приложениями.

cowork-session-sync v1.0.0 обеспечивает непрерывность сессии для Claude Cowork.
cowork-session-sync v1.0.0 — это инструмент, который обеспечивает непрерывность сессий в Claude Cowork, архивируя исходные транскрипты, преобразуя их в Markdown и позволяя быстро восстановить полный контекст с помощью фразы 'catchup-bunny'.

CRMy: Открытая CRM и движок контекста клиентов для OpenClaw
CRMy — это открытая CRM-система и механизм контекста клиентов, созданная специально для агентов OpenClaw. Она включает полный CLI, плагин OpenClaw с 12 CRM-инструментами, бэкенд на PostgreSQL и развертывание на собственном сервере двумя командами.

AI Token Monitor: Инструмент для macOS отслеживает локальное использование Claude и расходы
Разработчик создал AI Token Monitor — приложение для строки меню macOS, которое читает локальные файлы сессий Claude для отслеживания использования токенов, распределения моделей и эквивалентов стоимости без API-ключей. Инструмент с открытым исходным кодом показал 6,5 млн токенов (4 924 доллара по ценам API) за 35 дней в случае одного пользователя.