Отчет с поля: Qwen 3.6 27B на M2 MacBook Pro (32GB) – мучительно медленно, но умный вывод

✍️ OpenClawRadar📅 Опубликовано: 29 апреля 2026 г.🔗 Source

Разработчик на r/LocalLLaMA протестировал Qwen 3.6 27B (IQ4_XS unsloth quant) на M2 MacBook Pro с 32 ГБ ОЗУ. Как и ожидалось, машина недостаточно мощна для плотной модели 27B, но отчёт предоставляет конкретные цифры и реалистичную оценку производительности и качества вывода.

Команда и настройка

Модель запускалась с помощью llama-server с использованием следующей команды:

llama-server -m ~/models/unsloth/Qwen3.6-27B-IQ4_XS.gguf --mmproj ~/models/unsloth/Qwen3.6-27B-mmproj-BF16.gguf -c 131072 --batch-size 256 -ngl 99 -np 1 --host 127.0.0.1 --port 8899 -ctk q8_0 -ctv q8_0 --spec-type ngram-mod --spec-ngram-size-n 24 --draft-min 12 --draft-max 48

Примечательные особенности: один процесс (-np 1) для избежания перегрузки GPU, спекулятивное декодирование с ngram-mod и контекстное окно в 131072 токена.

Производительность

Начальные скорости: 80 токенов/с обработка промпта, 7,9 токенов/с генерация. При 52 000 токенов контекста производительность упала до 4 токенов/с обработка промпта — что автор подтверждает не опечатка — и 3,1 токенов/с генерация. Давление на память никогда не достигало красной зоны, что указывает на узкое место — пропускную способность памяти, а не своп.

Спекулятивное декодирование неэффективно

Автор включил спекулятивное декодирование ngram-mod, но не увидел реальной выгоды. Логи показали:

accept: low acceptance streak (3) – resetting ngram_mod ... draft acceptance rate = 1.00000 ( 2 accepted / 2 generated)

Модель постоянно сбрасывается из-за низкого числа совпадений n-грамм; кажущийся 100% уровень принятия — артефакт крошечных выборок. Автор заключает, что такие плотные модели недостаточно повторяются, чтобы подход ngram-mod работал хорошо.

Качество кода

Несмотря на медлительность, код, сгенерированный Qwen 3.6 27B, оценён как отличный. Модель проанализировала значительную кодовую базу без дополнительных промптов, кроме начальной задачи, и превзошла по качеству модель Qwen 35B A3B (MoE). Автор сравнивает вывод с тем, что можно ожидать от самостоятельно размещённого Claude Sonnet, и отмечает, что даже Claude Opus 4.7 был впечатлён.

Ключевые выводы

Пропускная способность памяти определяет плотные модели: На Apple Silicon генерация токенов замедлилась вдвое с ростом контекста. Даже без свопа, ограничение пропускной способности убило производительность.
Один процесс — верный путь: Запуск параллельных задач агента на этом оборудовании не даёт выигрыша — только последовательное ожидание в очереди.
Спекулятивное декодирование зависит от модели: Ngram-mod здесь не помог; низкая повторяемость модели предотвратила совпадения драфтов.

Автор планирует протестировать Qwen 3.6 27B на облачном GPU с характеристиками, сравнимыми с R9700 (текущая цена ~1400$ на Amazon, выше на eBay), чтобы получить истинное представление о её возможностях в своих задачах программирования.

📖 Источник: r/LocalLLaMA

👀 Смотрите также

Советы

Исправление временных галлюцинаций Claude в коде Claude с помощью хуков

Пользователь обнаружил, что Claude Code не имеет доступа к часам реального времени, из-за чего он некорректно предлагает действия вроде 'отдохни' в неподходящее время. Исправление заключается в добавлении однострочного хука в ~/.claude/settings.json, который внедряет текущее время в контекст Claude при каждом сообщении.

15 апр. 2026 г., 22:45 UTC

OpenClawRadar

Советы

Шаблон OpenClaw AGENTS.md для автоматизированной подготовки к продающим звонкам

Пользователь Reddit делится инструкцией AGENTS.md для OpenClaw, которая автоматизирует исследование потенциальных клиентов перед продающими звонками, изучая детали компании и болевые точки, чтобы отправить брифинг за 10 минут до встречи.

14 мар. 2026 г., 16:45 UTC

OpenClawRadar

Советы

Агенты Claude Code не читают документацию проекта автоматически

Когда Claude Code отправляет подобных Sonnet суб-агентов для написания кода, эти агенты видят только то, что явно включено в их промпт, и не читают автоматически файлы CLAUDE.md, MEMORY.md или другие файлы контекста проекта, если им не дано конкретное указание сделать это.

14 апр. 2026 г., 18:45 UTC

OpenClawRadar

Советы

Сжать файлы CLAUDE.md, чтобы уменьшить раздувание системного промпта в коде Claude

Техника сжатия файлов CLAUDE.md путем удаления удобочитаемого форматирования, такого как заголовки markdown и проза, с заменой на компактные обозначения, такие как списки с разделителями-вертикальными чертами, что позволяет достичь сокращения на 60-70% символов при сохранении той же информации для Claude.

25 февр. 2026 г., 11:45 UTC

OpenClawRadar