Qwen 3.6 27B F16 vs 8-бит: Pacman-тест и уроки MTP

Разработчик на r/LocalLLaMA поделился практическим бенчмарком для кода: с одного запроса создать одностраничный клон Pacman, три попытки, выбрать лучший. Qwen 3.6 27B F16 выдала две почти идеальные игры — первая локальная модель, добившаяся успеха. Однако снижение до 8-битной квантизации сделало хорошие результаты недостижимыми даже после пяти попыток, что подтверждает утверждение, что 8-битный квант не без потерь для сложных генеративных задач.

Ключевые технические выводы из поста:

Шаблон чата критичен: Официальный шаблон Qwen настроен для vLLM и содержит ошибки в llama.cpp и других раннерах. Автор итеративно исправлял баги, и после настройки модель ощущалась как «новый уровень интеллекта».
Спекулятивное декодирование MTP ускоряет по-разному в зависимости от задачи: Для детерминированных задач, таких как программирование, генеративные токены/с составляли от 8 до 18 токенов/с (базовый уровень без MTP: 6,6 токенов/с). Творческие задачи ускоряются меньше.
Выбор обвязки (harness) влияет на скорость больше, чем на качество кода: Qwen CLI показал удивительно хорошие результаты — сопоставим с Claude Code по качеству вывода, но гораздо быстрее, потому что дополнительные промпты Claude Code замедляют локальные модели. С медленной моделью, такой как Qwen 3.6 27B со скоростью ~6 токенов/с, каждый дополнительный промпт добавляет болезненную задержку.
Не вмешивайтесь в управление контекстом: Встроенное кэширование и уплотнение контекста модели работают хорошо. Плагины или инструменты, манипулирующие кэшем или контекстом, сбивают модель и ухудшают производительность.
Вызовы инструментов и подагенты работают безупречно после правильной настройки шаблона чата. Уплотнение контекста, использование оболочки и параллельные подагенты функционируют как ожидалось.

Автор предупреждает, что ваш результат сильно зависит от конфигурации раннера: используйте веса F16, исправленный шаблон чата и избегайте тяжелых обвязок, если у вас не быстрый инференс. Полный играбельный Pacman доступен по ссылке guigand.com/pacman.

📖 Читать полный источник: r/LocalLLaMA

Qwen 3.6 27B F16 проходит тест программирования Pacman, но 8-битные квантизации проваливаются — ключевые уроки по шаблонам и спекулятивному декодированию MTP

👀 Смотрите также

Equibles: Самостоятельно размещаемый MCP-сервер для финансовых данных США – отчеты SEC, 13F, инсайдерские сделки, FRED

Плагин Design Studio для Claude Code добавляет виртуальную дизайн-команду с 9 ролями и 16 командами.

Инструмент с открытым исходным кодом Vigil решает проблему идентификации агентов в экосистеме OpenClaw.

Разработчик видеоредакторов создает бесплатный инструмент для транскрипции Treelo с использованием кода Claude.