Lightning MLX: 220 ток/с на Qwen 35B-A3B для Apple Silicon

Новый движок вывода с открытым исходным кодом для Apple Silicon под названием Lightning MLX заявляет, что он является самым быстрым локальным движком ИИ, специально оптимизированным для агентных рабочих процессов — агентов кодирования, вызова инструментов и задач с коротким временем выполнения. Проект доступен на GitHub по адресу samuelfaj/lightning-mlx.

Результаты тестов

Автор тестировал на MacBook Max M5 с 128 ГБ ОЗУ и сообщил следующие скорости генерации токенов:

Qwen3.6-27B: 40,67 ток/с
Qwen3.6-35B-A3B: 220,86 ток/с

Эти результаты показывают, что движок особенно эффективен для архитектуры смеси экспертов, используемой в модели Qwen3.6-35B-A3B, которая активирует только часть параметров на каждый токен.

Ключевые особенности

Оптимизирован для агентных сценариев с короткими циклами — генерация кода, вызовы инструментов и быстрые циклы вывода
Включает предустановленную конфигурацию под названием MTPLX (пользовательские параметры сэмплирования); автор ищет отзывы о том, подходят ли эти настройки для продакшна
Открытый исходный код под лицензией MIT (предположительно) на GitHub

Запрос обратной связи

Создатель активно просит сообщество предоставить:

Более качественные тестовые сценарии для локальных агентов кодирования
Мнения о предустановленных настройках MTPLX
Результаты тестов на других конфигурациях Apple Silicon (например, M1, M2, M3, M4, разные объемы ОЗУ)

Для кого это

Для разработчиков, запускающих локальные LLM на Apple Silicon для агентных рабочих процессов кодирования, которым нужна максимальная скорость вывода.

📖 Источник: r/LocalLLaMA

Lightning MLX: быстрый локальный AI-движок для агентного использования на Apple Silicon выдает 220 токенов/с на Qwen 35B-A3B

Результаты тестов

Ключевые особенности

Запрос обратной связи

Для кого это

👀 Смотрите также

Обсуждение на Reddit: Файлы Identity.md недостаточны для стабильности личности ИИ-сотрудника без надлежащей архитектуры модели.

AutoProber: автоматизация летающих зондов на основе искусственного интеллекта для аппаратного взлома

ClamBot: ИИ-агент выполняет код, сгенерированный LLM, в песочнице WASM для обеспечения безопасности

Зубная щетка: открытый инструмент проверки фактов в реальном времени на основе API Claude Opus и Sonnet