Lightning MLX: быстрый локальный AI-движок для агентного использования на Apple Silicon выдает 220 токенов/с на Qwen 35B-A3B

✍️ OpenClawRadar📅 Опубликовано: 8 мая 2026 г.🔗 Source
Lightning MLX: быстрый локальный AI-движок для агентного использования на Apple Silicon выдает 220 токенов/с на Qwen 35B-A3B
Ad

Новый движок вывода с открытым исходным кодом для Apple Silicon под названием Lightning MLX заявляет, что он является самым быстрым локальным движком ИИ, специально оптимизированным для агентных рабочих процессов — агентов кодирования, вызова инструментов и задач с коротким временем выполнения. Проект доступен на GitHub по адресу samuelfaj/lightning-mlx.

Результаты тестов

Автор тестировал на MacBook Max M5 с 128 ГБ ОЗУ и сообщил следующие скорости генерации токенов:

  • Qwen3.6-27B: 40,67 ток/с
  • Qwen3.6-35B-A3B: 220,86 ток/с

Эти результаты показывают, что движок особенно эффективен для архитектуры смеси экспертов, используемой в модели Qwen3.6-35B-A3B, которая активирует только часть параметров на каждый токен.

Ad

Ключевые особенности

  • Оптимизирован для агентных сценариев с короткими циклами — генерация кода, вызовы инструментов и быстрые циклы вывода
  • Включает предустановленную конфигурацию под названием MTPLX (пользовательские параметры сэмплирования); автор ищет отзывы о том, подходят ли эти настройки для продакшна
  • Открытый исходный код под лицензией MIT (предположительно) на GitHub

Запрос обратной связи

Создатель активно просит сообщество предоставить:

  • Более качественные тестовые сценарии для локальных агентов кодирования
  • Мнения о предустановленных настройках MTPLX
  • Результаты тестов на других конфигурациях Apple Silicon (например, M1, M2, M3, M4, разные объемы ОЗУ)

Для кого это

Для разработчиков, запускающих локальные LLM на Apple Silicon для агентных рабочих процессов кодирования, которым нужна максимальная скорость вывода.

📖 Источник: r/LocalLLaMA

Ad

👀 Смотрите также

AGI в md: 11 уровней когнитивного сжатия для системных промптов Claude
Инструменты

AGI в md: 11 уровней когнитивного сжатия для системных промптов Claude

Репозиторий на GitHub документирует 11 уровней когнитивного сжатия, которые можно закодировать в системных промптах Claude, при этом Уровень 8 переходит от анализа к конструированию и улучшает производительность Haiku с 0/3 до 4/4. Проект включает 28 промптов, 299 сырых выводов и полные журналы экспериментов по 19 доменам.

OpenClawRadar
Конвейер рекапитуляции фильмов с локальным приоритетом с использованием Whisper + CLIP + Ollama
Инструменты

Конвейер рекапитуляции фильмов с локальным приоритетом с использованием Whisper + CLIP + Ollama

Полностью локальный пайплайн, который автоматически создает видео-пересказы фильмов с озвучкой, используя Whisper, CLIP, Ollama, Edge TTS и FFmpeg. Загрузите файл фильма и получите озвученный пересказ примерно через 15 минут.

OpenClawRadar
Фреймворк для поиска работы с открытым исходным кодом, созданный в Claude Code.
Инструменты

Фреймворк для поиска работы с открытым исходным кодом, созданный в Claude Code.

Разработчик создал фреймворк для поиска работы с открытым исходным кодом в Claude Code, который обрабатывает структурированное самоописание, автоматический сбор данных с порталов вакансий, оценку соответствия и конвейер агентов «составитель-рецензент» для персонализированных заявок. Система останавливается перед отправкой и требует ручной проверки.

OpenClawRadar
Открытый исходный код агента навыков для шаблонов TypeScript, React и Next.js
Инструменты

Открытый исходный код агента навыков для шаблонов TypeScript, React и Next.js

Разработчик выпустил структурированное справочное руководство на языке Markdown объёмом 4000 строк в 17 файлах, предназначенное для ИИ-агентов, таких как Claude Code, чтобы они следовали ему при генерации или проверке кода на TypeScript, React и Next.js. Оно решает распространённые проблемы, такие как неправильная валидация ответов API и некорректное использование директив 'use client'.

OpenClawRadar