Бенчмарк: MLX vs Ollama, запуск Qwen3-Coder-Next 8-Bit на MacBook Pro M5 Max

Был проведен бенчмарк, сравнивающий два локальных бэкенда для вывода — MLX (родной фреймворк машинного обучения Apple) и Ollama (основанный на llama.cpp) — работающие с одной и той же моделью Qwen3-Coder-Next в 8-битном квантовании на Apple Silicon. Целью было измерить чистую пропускную способность (токенов в секунду), время до первого токена (TTFT) и общую способность к программированию в реальных задачах.
Методология
Использовалась следующая настройка:
- Бэкенд MLX: mlx-lm v0.29.1, обслуживающий mlx-community/Qwen3-Coder-Next-8bit через встроенный HTTP-сервер, совместимый с OpenAI, на порту 8080.
- Бэкенд Ollama: Ollama, обслуживающий qwen3-coder-next:Q8_0 через свой API, совместимый с OpenAI, на порту 11434.
Оба бэкенда были доступны через один и тот же Python-скрипт для бенчмаркинга с использованием клиентской библиотеки OpenAI с включенной потоковой передачей. Каждый тест выполнялся по 3 итерации на промпт, результаты усреднялись, при этом первая итерация TTFT для начального промпта с холодным стартом (загрузка модели) исключалась.
Набор тестов
Шесть промптов охватывали спектр задач программирования:
- Короткое завершение: Написать функцию проверки на палиндром (максимум 150 токенов)
- Средняя генерация: Реализовать класс LRU-кэша с аннотацией типов (максимум 500 токенов)
- Длинное рассуждение: Объяснить async/await в сравнении с потоками с примерами (максимум 1000 токенов)
- Задача отладки: Найти и исправить ошибки в сортировке слиянием + бинарном поиске (максимум 800 токенов)
- Сложное программирование: Потокобезопасная ограниченная блокирующая очередь с контекстным менеджером (максимум 1000 токенов)
- Ревью кода: Проверить 3 функции на производительность/корректность/стиль (максимум 1000 токенов)
Результаты
Пропускная способность (токенов в секунду) на M5 Max с 128 ГБ ОЗУ:
- Короткое завершение: Ollama 32.51 ток/с, MLX 69.62 ток/с (MLX +114%)
- Средняя генерация: Ollama 35.97 ток/с, MLX 78.28 ток/с (MLX +118%)
- Длинное рассуждение: Ollama 40.45 ток/с, MLX 78.29 ток/с (MLX +94%)
- Задача отладки: Ollama 37.06 ток/с, MLX 74.89 ток/с (MLX +102%)
- Сложное программирование: Ollama 35.84 ток/с, MLX 76.99 ток/с (MLX +115%)
- Ревью кода: Ollama 39.00 ток/с, MLX 74.98 ток/с (MLX +92%)
Общий средний показатель: MLX достиг примерно 72 токенов в секунду, что примерно вдвое превышает пропускную способность Ollama. Измеряемые метрики включали токенов/сек (сгенерированные выходные токены в секунду, чем больше, тем лучше), TTFT (время от отправки запроса до получения первого токена, чем меньше, тем лучше), общее время (настенное время для полного ответа, чем меньше, тем лучше) и использование памяти, измеренное через psutil.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

ClaudeClaw: Бесплатный плагин кода Claude для постоянных AI-агентов на мессенджер-платформах
ClaudeClaw — это бесплатный плагин Claude Code с открытым исходным кодом и лицензией MIT, который запускает Claude в качестве постоянного агента в Slack, WhatsApp и Telegram. Для работы требуется Node.js 20+, Claude Code и ваш собственный ключ API Anthropic, с изоляцией на уровне ОС через sandbox-runtime от Anthropic.

Навык OpenClaw добавляет генерацию изображений с искусственным интеллектом с поддержкой локального ComfyUI и курируемыми промптами.
Новый навык OpenClaw предоставляет возможности генерации ИИ-изображений непосредственно в терминале, включая более 1300 курируемых промптов, локальную интеграцию с ComfyUI и рабочие процессы улучшения промптов.

Аудит SecureCode: аудитор безопасности сервера Linux, созданный с помощью Claude Code
Независимый разработчик создал SecureCode Audit с помощью Claude Code — выполните одну SSH-команду, получите отчет по безопасности из 22 проверок с приоритетными исправлениями. Первые 30 зарегистрировавшихся получат полный аудит бесплатно.

Клод Код АФК-агент: Запуск автономных работников с поддержкой Discord через плагин Teams
Используйте официальный плагин каналов и командного агента с переменной окружения CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1, чтобы запускать отдельных исполнителей из Discord. Включает полный файл CLAUDE.md для ведущего агента, который распределяет задачи, никогда не выполняет их сам и принудительно завершает молчащих исполнителей через 60 минут.