Бенчмарк квантизации Qwen 3.6 27B: Q4_K_M превосходит Q8_0 по практическим компромиссам

Пользователь Reddit протестировал Qwen 3.6 27B в трех вариантах квантования GGUF (BF16, Q4_K_M, Q8_0) с использованием llama-cpp-python через фреймворк Neo AI Engineer. Оценка охватывала 664 образца по трем задачам: HumanEval (генерация кода, 164 образца), HellaSwag (здравый смысл, 100 образцов) и BFCL (вызов функций, 400 образцов).
Результаты бенчмарка
- BF16 (размер модели 53,8 ГБ, пиковая RAM 54 ГБ, пропускная способность 15,5 ток/с): HumanEval 56,10% (92/164), HellaSwag 90,00% (90/100), BFCL 63,25% (253/400). Средняя точность: 69,78%.
- Q4_K_M (16,8 ГБ, 28 ГБ RAM, 22,5 ток/с): HumanEval 50,61% (83/164), HellaSwag 86,00% (86/100), BFCL 63,00% (252/400). Средняя: 66,54%.
- Q8_0 (28,6 ГБ, 42 ГБ RAM, 18,0 ток/с): HumanEval 52,44% (86/164), HellaSwag 83,00% (83/100), BFCL 63,00% (252/400). Средняя: 66,15%.
Основные выводы
Q4_K_M — лучший практический вариант. Он сохраняет точность BFCL (63,00% против 63,25%), теряет всего ~5,5 пункта на HumanEval и отстает от BF16 на ~4 пункта по HellaSwag. Компромиссы: в 1,45 раза быстрее BF16, на 48% меньше пиковой RAM, на 68,8% меньше файл и практически идентичная производительность вызова функций. Q8_0 разочаровал: он улучшил HumanEval всего на ~1,8 пункта по сравнению с Q4_K_M, но использовал 42 ГБ RAM против 28 ГБ, был медленнее и показал более низкие результаты по HellaSwag.
Для локального/CPU развертывания рекомендуется Q4_K_M, если только нагрузка не сосредоточена на генерации кода. Для максимального качества по-прежнему лучшим является BF16.
Настройка оценки
Варианты GGUF через llama-cpp-python с n_ctx: 32768, чекпоинтированная оценка. Фреймворк Neo AI Engineer построил конвейер оценки GGUF, обработал чекпоинтированные запуски и объединил результаты. Полное тематическое исследование с фрагментами кода приведено в оригинальных комментариях Reddit.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Агент OpenClaw получает возможность телефонных звонков благодаря пользовательскому навыку.
Разработчик создал пользовательский навык для самостоятельно размещенных агентов OpenClaw, который добавляет функциональность телефонных звонков, позволяя агенту совершать вызовы по триггерам, таким как завершение сборки или сбои сервера. Реализация обеспечивает голосовое взаимодействие с полными чат-возможностями, включая веб-поиск и настройку оповещений.

Контекстиум: Открытый Фреймворк Постоянного Контекста для Claude Code
Contextium — это структурированный фреймворк для git-репозиториев, который обеспечивает постоянный контекст для сессий Claude Code, используя файл CLAUDE.md в качестве маршрутизатора контекста для ленивой загрузки соответствующих markdown-файлов. Открытая версия включает шаблон с 6 примерами приложений и 27 документациями по интеграциям.

Настройка Headless OpenClaw с Discord через Docker-скрипты
Репозиторий на GitHub предоставляет скрипты для запуска OpenClaw с Discord в headless-контейнере Docker, избегая TUI/WebUI. Он включает управляющий скрипт с командами, такими как claw init, start и stop, а также предварительно настроенную поддержку OpenAI Responses API, Chromium и различных инструментов.

Соло-разработчик создал кроссплатформенного десктопного AI-агента с мобильным удаленным управлением за 3 недели и выпустил в 40+ стран
Один разработчик в одиночку создал Skales — нативного десктопного AI-агента с 139+ инструментами и мобильным приложением-компаньоном для удаленного управления — всего за 3 недели, используя Claude. Приложение работает на macOS, Windows и Linux, является локально-ориентированным и бесплатным, и уже имеет активных пользователей в 40+ странах.