Отчет с поля: Qwen 3.6 27B на M2 MacBook Pro (32GB) – мучительно медленно, но умный вывод

Разработчик на r/LocalLLaMA протестировал Qwen 3.6 27B (IQ4_XS unsloth quant) на M2 MacBook Pro с 32 ГБ ОЗУ. Как и ожидалось, машина недостаточно мощна для плотной модели 27B, но отчёт предоставляет конкретные цифры и реалистичную оценку производительности и качества вывода.
Команда и настройка
Модель запускалась с помощью llama-server с использованием следующей команды:
llama-server -m ~/models/unsloth/Qwen3.6-27B-IQ4_XS.gguf --mmproj ~/models/unsloth/Qwen3.6-27B-mmproj-BF16.gguf -c 131072 --batch-size 256 -ngl 99 -np 1 --host 127.0.0.1 --port 8899 -ctk q8_0 -ctv q8_0 --spec-type ngram-mod --spec-ngram-size-n 24 --draft-min 12 --draft-max 48
Примечательные особенности: один процесс (-np 1) для избежания перегрузки GPU, спекулятивное декодирование с ngram-mod и контекстное окно в 131072 токена.
Производительность
Начальные скорости: 80 токенов/с обработка промпта, 7,9 токенов/с генерация. При 52 000 токенов контекста производительность упала до 4 токенов/с обработка промпта — что автор подтверждает не опечатка — и 3,1 токенов/с генерация. Давление на память никогда не достигало красной зоны, что указывает на узкое место — пропускную способность памяти, а не своп.
Спекулятивное декодирование неэффективно
Автор включил спекулятивное декодирование ngram-mod, но не увидел реальной выгоды. Логи показали:
accept: low acceptance streak (3) – resetting ngram_mod ... draft acceptance rate = 1.00000 ( 2 accepted / 2 generated)
Модель постоянно сбрасывается из-за низкого числа совпадений n-грамм; кажущийся 100% уровень принятия — артефакт крошечных выборок. Автор заключает, что такие плотные модели недостаточно повторяются, чтобы подход ngram-mod работал хорошо.
Качество кода
Несмотря на медлительность, код, сгенерированный Qwen 3.6 27B, оценён как отличный. Модель проанализировала значительную кодовую базу без дополнительных промптов, кроме начальной задачи, и превзошла по качеству модель Qwen 35B A3B (MoE). Автор сравнивает вывод с тем, что можно ожидать от самостоятельно размещённого Claude Sonnet, и отмечает, что даже Claude Opus 4.7 был впечатлён.
Ключевые выводы
- Пропускная способность памяти определяет плотные модели: На Apple Silicon генерация токенов замедлилась вдвое с ростом контекста. Даже без свопа, ограничение пропускной способности убило производительность.
- Один процесс — верный путь: Запуск параллельных задач агента на этом оборудовании не даёт выигрыша — только последовательное ожидание в очереди.
- Спекулятивное декодирование зависит от модели: Ngram-mod здесь не помог; низкая повторяемость модели предотвратила совпадения драфтов.
Автор планирует протестировать Qwen 3.6 27B на облачном GPU с характеристиками, сравнимыми с R9700 (текущая цена ~1400$ на Amazon, выше на eBay), чтобы получить истинное представление о её возможностях в своих задачах программирования.
📖 Источник: r/LocalLLaMA
👀 Смотрите также

Хорошая разработка с помощью ИИ происходит на уровне систем, а не задач
Пользователь Reddit объясняет, как переход от исправления результатов работы ИИ-агента к созданию ограничений — например, правила линтера, заставляющего следовать навигации по UI — навсегда устраняет целые классы ошибок.

Оптимизация затрат на OpenClaw: от $200 до $1/месяц

После 3 месяцев A/B-тестирования 160 промпт-кодов для Claude: скучные выводы
Самарт создал контролируемый тестовый стенд, прогнал через него 160 промпт-кодов и обнаружил, что большинство из них — плацебо, 7 последовательно меняют рассуждения, а наложение 3+ кодов сбивает модель с толку. Файлы навыков превосходят промпт-коды для Claude Code.

Агент Claude отправляет мемы через Discord с помощью Tenor GIF — полный протокол
Настройка агента Claude code добавляет контекстно-зависимые эмодзи-реакции, односложные сообщения о статусе и проверенные URL-адреса GIF Tenor в каждое сообщение Discord, с явными шагами веб-поиска и загрузки для избежания неработающих ссылок.