MTP уровень принятия: 50% порог определяет выгоду спекулятивного декодирования

✍️ OpenClawRadar📅 Опубликовано: 9 мая 2026 г.🔗 Source
MTP уровень принятия: 50% порог определяет выгоду спекулятивного декодирования
Ad

Пользователь Reddit протестировал MTP (Многотокеновое предсказание) с помощью mlx-vlm на Gemma-4 (26B, 4-битная) и обнаружил, что производительность полностью зависит от уровня принятия черновиков токенов. Измерения на M4 Max Studio показывают конкретные пороговые значения.

Ad

Результаты нагрузки

  • Генерация кода: 75 ток/с → 114,8 ток/с (в 1,53 раза быстрее) — уровень принятия: 66% слотов
  • Длинная проза: 75 ток/с → 71,1 ток/с (0,95×, практически без изменений) — уровень принятия: 31% слотов
  • Вывод JSON: 51,3 ток/с → 25,6 ток/с (в 0,50 раза медленнее) — уровень принятия: 8% слотов

Порог, по-видимому, составляет ~50% принятия. Ниже этого накладные расходы спекулятивного декодирования перевешивают выгоду.

Детали теста: код — "написать несколько функций Python для X"; длинная проза — "написать эссе на 800 слов о бумажных деньгах в династии Тан"; вывод JSON — группировка элементов по схожести в структурированный вывод.

Бонусный совет: пользователь отмечает, что Gemma неплохо следует инструкциям по структуре JSON, но включение структурированного вывода (json_schema) добавляет ~20% накладных расходов. Он рекомендует допускать слегка неровный JSON и исправлять его во время выполнения. mlx-vlm всё равно не поддерживает json_schema для спекулятивного декодирования.

Итог: MTP отлично подходит для локального кодирования, но может ухудшить производительность для структурированных или прозаических задач с низким уровнем принятия.

📖 Источник: r/LocalLLaMA

Ad

👀 Смотрите также

[Обновление] Вы просили о безопасном, «всегда включенном» способе запуска OpenClaw без headaches VPS. Мы это сделали. Список ожидания открыт.
Советы

[Обновление] Вы просили о безопасном, «всегда включенном» способе запуска OpenClaw без headaches VPS. Мы это сделали. Список ожидания открыт.

OpenClaw объявляет о новой функции, которая позволяет пользователям безопасно и непрерывно запускать свою платформу без сложностей, связанных с VPS. Список ожидающих активации теперь открыт для раннего доступа.

OpenClawRadar
Как нон-кодер создал переиспользуемый рабочий процесс на Claude для контент-маркетинга основателя
Советы

Как нон-кодер создал переиспользуемый рабочий процесс на Claude для контент-маркетинга основателя

Бывший редактор журнала без опыта программирования рассказывает, как случайно создал повторяемый рабочий процесс с Claude для контент-маркетинга соло-основателя: выгрузить сырые мысли, затем переструктурировать с помощью Claude в форматы для конкретных платформ.

OpenClawRadar
Источники данных Claude: Когда запрашивать веб-поиск для получения актуальной информации
Советы

Источники данных Claude: Когда запрашивать веб-поиск для получения актуальной информации

Claude иногда полагается на внутренние обучающие данные вместо выполнения веб-поиска, что может предоставлять устаревшую информацию. Пользователи могут специально запрашивать веб-поиск для получения более актуальных результатов.

OpenClawRadar
Почему большинство сбоев в пайплайнах Claude связаны с промптами, а не с моделями — и как это исправить с помощью навыков
Советы

Почему большинство сбоев в пайплайнах Claude связаны с промптами, а не с моделями — и как это исправить с помощью навыков

Пост на Reddit утверждает, что коренная причина сбоев пайплайнов в рабочих процессах Claude — это отношение к промптам как к навыкам. Решение: определить контракты на ввод, схемы вывода и файл обучения — превращая навык в то, что вы повышаете до v1.

OpenClawRadar