MLX vs Ollama: 2x Быстрее В Бенчмарке Qwen3-Coder-Next

Был проведен бенчмарк, сравнивающий два локальных бэкенда для вывода — MLX (родной фреймворк машинного обучения Apple) и Ollama (основанный на llama.cpp) — работающие с одной и той же моделью Qwen3-Coder-Next в 8-битном квантовании на Apple Silicon. Целью было измерить чистую пропускную способность (токенов в секунду), время до первого токена (TTFT) и общую способность к программированию в реальных задачах.

Методология

Использовалась следующая настройка:

Бэкенд MLX: mlx-lm v0.29.1, обслуживающий mlx-community/Qwen3-Coder-Next-8bit через встроенный HTTP-сервер, совместимый с OpenAI, на порту 8080.
Бэкенд Ollama: Ollama, обслуживающий qwen3-coder-next:Q8_0 через свой API, совместимый с OpenAI, на порту 11434.

Оба бэкенда были доступны через один и тот же Python-скрипт для бенчмаркинга с использованием клиентской библиотеки OpenAI с включенной потоковой передачей. Каждый тест выполнялся по 3 итерации на промпт, результаты усреднялись, при этом первая итерация TTFT для начального промпта с холодным стартом (загрузка модели) исключалась.

Набор тестов

Шесть промптов охватывали спектр задач программирования:

Короткое завершение: Написать функцию проверки на палиндром (максимум 150 токенов)
Средняя генерация: Реализовать класс LRU-кэша с аннотацией типов (максимум 500 токенов)
Длинное рассуждение: Объяснить async/await в сравнении с потоками с примерами (максимум 1000 токенов)
Задача отладки: Найти и исправить ошибки в сортировке слиянием + бинарном поиске (максимум 800 токенов)
Сложное программирование: Потокобезопасная ограниченная блокирующая очередь с контекстным менеджером (максимум 1000 токенов)
Ревью кода: Проверить 3 функции на производительность/корректность/стиль (максимум 1000 токенов)

Результаты

Пропускная способность (токенов в секунду) на M5 Max с 128 ГБ ОЗУ:

Короткое завершение: Ollama 32.51 ток/с, MLX 69.62 ток/с (MLX +114%)
Средняя генерация: Ollama 35.97 ток/с, MLX 78.28 ток/с (MLX +118%)
Длинное рассуждение: Ollama 40.45 ток/с, MLX 78.29 ток/с (MLX +94%)
Задача отладки: Ollama 37.06 ток/с, MLX 74.89 ток/с (MLX +102%)
Сложное программирование: Ollama 35.84 ток/с, MLX 76.99 ток/с (MLX +115%)
Ревью кода: Ollama 39.00 ток/с, MLX 74.98 ток/с (MLX +92%)

Общий средний показатель: MLX достиг примерно 72 токенов в секунду, что примерно вдвое превышает пропускную способность Ollama. Измеряемые метрики включали токенов/сек (сгенерированные выходные токены в секунду, чем больше, тем лучше), TTFT (время от отправки запроса до получения первого токена, чем меньше, тем лучше), общее время (настенное время для полного ответа, чем меньше, тем лучше) и использование памяти, измеренное через psutil.

📖 Read the full source: r/LocalLLaMA

Бенчмарк: MLX vs Ollama, запуск Qwen3-Coder-Next 8-Bit на MacBook Pro M5 Max

Методология

Набор тестов

Результаты

👀 Смотрите также

Солоноватый: Пусть два экземпляра Claude Code согласуют контракт API через OpenAPI 3.1

Разработчик OpenClaw создает унифицированную систему памяти для ИИ-агентов.

Team Memory MCP: Открытый исходный код общей памяти для Claude Code с байесовской оценкой уверенности

BigNumberTheory: Сеть для обмена опытом между кодовыми агентами Claude