Qwen 3.6 27B F16 проходит тест программирования Pacman, но 8-битные квантизации проваливаются — ключевые уроки по шаблонам и спекулятивному декодированию MTP

✍️ OpenClawRadar📅 Опубликовано: 19 мая 2026 г.🔗 Source
Qwen 3.6 27B F16 проходит тест программирования Pacman, но 8-битные квантизации проваливаются — ключевые уроки по шаблонам и спекулятивному декодированию MTP
Ad

Разработчик на r/LocalLLaMA поделился практическим бенчмарком для кода: с одного запроса создать одностраничный клон Pacman, три попытки, выбрать лучший. Qwen 3.6 27B F16 выдала две почти идеальные игры — первая локальная модель, добившаяся успеха. Однако снижение до 8-битной квантизации сделало хорошие результаты недостижимыми даже после пяти попыток, что подтверждает утверждение, что 8-битный квант не без потерь для сложных генеративных задач.

Ключевые технические выводы из поста:

  • Шаблон чата критичен: Официальный шаблон Qwen настроен для vLLM и содержит ошибки в llama.cpp и других раннерах. Автор итеративно исправлял баги, и после настройки модель ощущалась как «новый уровень интеллекта».
  • Спекулятивное декодирование MTP ускоряет по-разному в зависимости от задачи: Для детерминированных задач, таких как программирование, генеративные токены/с составляли от 8 до 18 токенов/с (базовый уровень без MTP: 6,6 токенов/с). Творческие задачи ускоряются меньше.
  • Выбор обвязки (harness) влияет на скорость больше, чем на качество кода: Qwen CLI показал удивительно хорошие результаты — сопоставим с Claude Code по качеству вывода, но гораздо быстрее, потому что дополнительные промпты Claude Code замедляют локальные модели. С медленной моделью, такой как Qwen 3.6 27B со скоростью ~6 токенов/с, каждый дополнительный промпт добавляет болезненную задержку.
  • Не вмешивайтесь в управление контекстом: Встроенное кэширование и уплотнение контекста модели работают хорошо. Плагины или инструменты, манипулирующие кэшем или контекстом, сбивают модель и ухудшают производительность.
  • Вызовы инструментов и подагенты работают безупречно после правильной настройки шаблона чата. Уплотнение контекста, использование оболочки и параллельные подагенты функционируют как ожидалось.

Автор предупреждает, что ваш результат сильно зависит от конфигурации раннера: используйте веса F16, исправленный шаблон чата и избегайте тяжелых обвязок, если у вас не быстрый инференс. Полный играбельный Pacman доступен по ссылке guigand.com/pacman.

Ad

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Rift CLI: Управление рабочими деревьями Git для параллельных рабочих процессов AI-агентов
Инструменты

Rift CLI: Управление рабочими деревьями Git для параллельных рабочих процессов AI-агентов

Rift — это инструмент командной строки, который создает изолированные рабочие деревья Git и ветки для одновременного запуска нескольких ИИ-агентов для программирования, таких как Claude Code, в одном репозитории. Он включает хуки жизненного цикла, детерминированное сопоставление портов и поддержку рабочего пространства для нескольких редакторов.

OpenClawRadar
x402 API Gateway для OpenClaw Bots: Один конечный пункт заменяет 18 ключей API
Инструменты

x402 API Gateway для OpenClaw Bots: Один конечный пункт заменяет 18 ключей API

Шлюз API x402 устраняет необходимость в нескольких API-ключах для ботов OpenClaw, предоставляя доступ к 18 сервисам, включая интеллектуальную маршрутизацию LLM, веб-поиск, карты, путешествия, еду, ИИ и финансовые данные, через единую конечную точку с аутентификацией через кредиты кошелька USDC.

OpenClawRadar
Фреймворк с открытым исходным кодом для мультиагентных систем, извлечённый из утечки кода Claude.
Инструменты

Фреймворк с открытым исходным кодом для мультиагентных систем, извлечённый из утечки кода Claude.

Разработчик извлек систему оркестрации мультиагентов из утекшего исходного кода Claude Code и перестроил ее в модель-независимый фреймворк с открытым исходным кодом под лицензией MIT. Фреймворк на TypeScript объемом 8 000 строк включает планирование задач, меж-агентное взаимодействие и встроенные инструменты.

OpenClawRadar
Клод для дизайн-работы: как перестать повторять одни и те же споры о вкусе на каждом сеансе
Инструменты

Клод для дизайн-работы: как перестать повторять одни и те же споры о вкусе на каждом сеансе

Разработчик, выполняющий работу для клиентов через Claude, описывает основную проблему: у Claude нет памяти о отвергнутых дизайнерских решениях, что приводит к шаблонным результатам и несогласованному брендовому стилю.

OpenClawRadar