Уровень принятия MTP: 50% порог выгоды спекулятивного декодирования

Пользователь Reddit протестировал MTP (Многотокеновое предсказание) с помощью mlx-vlm на Gemma-4 (26B, 4-битная) и обнаружил, что производительность полностью зависит от уровня принятия черновиков токенов. Измерения на M4 Max Studio показывают конкретные пороговые значения.

Результаты нагрузки

Генерация кода: 75 ток/с → 114,8 ток/с (в 1,53 раза быстрее) — уровень принятия: 66% слотов
Длинная проза: 75 ток/с → 71,1 ток/с (0,95×, практически без изменений) — уровень принятия: 31% слотов
Вывод JSON: 51,3 ток/с → 25,6 ток/с (в 0,50 раза медленнее) — уровень принятия: 8% слотов

Порог, по-видимому, составляет ~50% принятия. Ниже этого накладные расходы спекулятивного декодирования перевешивают выгоду.

Детали теста: код — "написать несколько функций Python для X"; длинная проза — "написать эссе на 800 слов о бумажных деньгах в династии Тан"; вывод JSON — группировка элементов по схожести в структурированный вывод.

Бонусный совет: пользователь отмечает, что Gemma неплохо следует инструкциям по структуре JSON, но включение структурированного вывода (json_schema) добавляет ~20% накладных расходов. Он рекомендует допускать слегка неровный JSON и исправлять его во время выполнения. mlx-vlm всё равно не поддерживает json_schema для спекулятивного декодирования.

Итог: MTP отлично подходит для локального кодирования, но может ухудшить производительность для структурированных или прозаических задач с низким уровнем принятия.

📖 Источник: r/LocalLLaMA

MTP уровень принятия: 50% порог определяет выгоду спекулятивного декодирования

Результаты нагрузки

👀 Смотрите также

Проблема тихого ложного успеха Claude Code и как её решить

Автоматизированное обеспечение качества и тестирование с помощью ИИ: Новая эра тестирования программного обеспечения

Использование нарративов проекта для поддержания контекста OpenClaw в долгосрочных проектах

Запускайте код Claude в интегрированном терминале VSCode/Cursor для улучшения рабочего процесса