MLX vs Ollama: Benchmark Qwen3-Coder-Next 8 bits en M5 Max

Se realizó un punto de referencia comparando dos backends de inferencia local—MLX (el framework nativo de ML de Apple) y Ollama (basado en llama.cpp)—ejecutando el mismo modelo Qwen3-Coder-Next con cuantización de 8 bits en Apple Silicon. El objetivo era medir el rendimiento bruto (tokens por segundo), el tiempo hasta el primer token (TTFT) y la capacidad general de programación en tareas reales.

Metodología

La configuración utilizada:

Backend MLX: mlx-lm v0.29.1 sirviendo mlx-community/Qwen3-Coder-Next-8bit a través de su servidor HTTP compatible con OpenAI integrado en el puerto 8080.
Backend Ollama: Ollama sirviendo qwen3-coder-next:Q8_0 a través de su API compatible con OpenAI en el puerto 11434.

Ambos backends fueron accedidos a través del mismo sistema de pruebas en Python utilizando la biblioteca cliente de OpenAI con streaming habilitado. Cada prueba se ejecutó 3 iteraciones por prompt, promediando los resultados y excluyendo el TTFT de la primera iteración para el prompt inicial de arranque en frío (carga del modelo).

Suite de Pruebas

Seis prompts cubrieron un espectro de tareas de programación:

Completado Corto: Escribir una función de verificación de palíndromo (150 tokens máx.)
Generación Media: Implementar una clase de caché LRU con sugerencias de tipo (500 tokens máx.)
Razonamiento Largo: Explicar async/await vs threading con ejemplos (1000 tokens máx.)
Tarea de Depuración: Encontrar y corregir errores en ordenamiento por mezcla + búsqueda binaria (800 tokens máx.)
Programación Compleja: Cola de bloqueo acotada segura para hilos con gestor de contexto (1000 tokens máx.)
Revisión de Código: Revisar 3 funciones por rendimiento/corrección/estilo (1000 tokens máx.)

Resultados

Rendimiento (Tokens por Segundo) en M5 Max con 128 GB de RAM:

Completado Corto: Ollama 32.51 tok/s, MLX 69.62 tok/s (MLX +114%)
Generación Media: Ollama 35.97 tok/s, MLX 78.28 tok/s (MLX +118%)
Razonamiento Largo: Ollama 40.45 tok/s, MLX 78.29 tok/s (MLX +94%)
Tarea de Depuración: Ollama 37.06 tok/s, MLX 74.89 tok/s (MLX +102%)
Programación Compleja: Ollama 35.84 tok/s, MLX 76.99 tok/s (MLX +115%)
Revisión de Código: Ollama 39.00 tok/s, MLX 74.98 tok/s (MLX +92%)

Promedio general: MLX alcanzó aproximadamente 72 tokens por segundo, aproximadamente el doble del rendimiento de Ollama. Las métricas medidas incluyeron tokens/seg (tokens de salida generados por segundo, mayor es mejor), TTFT (tiempo desde que se envía la solicitud hasta que se recibe el primer token, menor es mejor), tiempo total (tiempo de reloj para la respuesta completa, menor es mejor) y uso de memoria medido a través de psutil.

📖 Read the full source: r/LocalLLaMA

Benchmark: MLX vs Ollama ejecutando Qwen3-Coder-Next de 8 bits en MacBook Pro M5 Max

Metodología

Suite de Pruebas

Resultados

👀 Ver también

TEMM1E v3.0.0 Introduce Inteligencia de Enjambre para la Coordinación de Agentes de IA

Colaborar: Una habilidad de Claude Code para escritura estructurada y asíncrona de documentos con transferencias multiagente

Conocimiento Cuervo: Una Plataforma de Base de Conocimiento Independiente del Modelo, Construida con Claude Code

cxt: Una herramienta CLI/TUI para agregar archivos de código en un solo bloque de portapapeles para Claude