Benchmark: MLX vs Ollama ejecutando Qwen3-Coder-Next de 8 bits en MacBook Pro M5 Max

Se realizó un punto de referencia comparando dos backends de inferencia local—MLX (el framework nativo de ML de Apple) y Ollama (basado en llama.cpp)—ejecutando el mismo modelo Qwen3-Coder-Next con cuantización de 8 bits en Apple Silicon. El objetivo era medir el rendimiento bruto (tokens por segundo), el tiempo hasta el primer token (TTFT) y la capacidad general de programación en tareas reales.
Metodología
La configuración utilizada:
- Backend MLX: mlx-lm v0.29.1 sirviendo mlx-community/Qwen3-Coder-Next-8bit a través de su servidor HTTP compatible con OpenAI integrado en el puerto 8080.
- Backend Ollama: Ollama sirviendo qwen3-coder-next:Q8_0 a través de su API compatible con OpenAI en el puerto 11434.
Ambos backends fueron accedidos a través del mismo sistema de pruebas en Python utilizando la biblioteca cliente de OpenAI con streaming habilitado. Cada prueba se ejecutó 3 iteraciones por prompt, promediando los resultados y excluyendo el TTFT de la primera iteración para el prompt inicial de arranque en frío (carga del modelo).
Suite de Pruebas
Seis prompts cubrieron un espectro de tareas de programación:
- Completado Corto: Escribir una función de verificación de palíndromo (150 tokens máx.)
- Generación Media: Implementar una clase de caché LRU con sugerencias de tipo (500 tokens máx.)
- Razonamiento Largo: Explicar async/await vs threading con ejemplos (1000 tokens máx.)
- Tarea de Depuración: Encontrar y corregir errores en ordenamiento por mezcla + búsqueda binaria (800 tokens máx.)
- Programación Compleja: Cola de bloqueo acotada segura para hilos con gestor de contexto (1000 tokens máx.)
- Revisión de Código: Revisar 3 funciones por rendimiento/corrección/estilo (1000 tokens máx.)
Resultados
Rendimiento (Tokens por Segundo) en M5 Max con 128 GB de RAM:
- Completado Corto: Ollama 32.51 tok/s, MLX 69.62 tok/s (MLX +114%)
- Generación Media: Ollama 35.97 tok/s, MLX 78.28 tok/s (MLX +118%)
- Razonamiento Largo: Ollama 40.45 tok/s, MLX 78.29 tok/s (MLX +94%)
- Tarea de Depuración: Ollama 37.06 tok/s, MLX 74.89 tok/s (MLX +102%)
- Programación Compleja: Ollama 35.84 tok/s, MLX 76.99 tok/s (MLX +115%)
- Revisión de Código: Ollama 39.00 tok/s, MLX 74.98 tok/s (MLX +92%)
Promedio general: MLX alcanzó aproximadamente 72 tokens por segundo, aproximadamente el doble del rendimiento de Ollama. Las métricas medidas incluyeron tokens/seg (tokens de salida generados por segundo, mayor es mejor), TTFT (tiempo desde que se envía la solicitud hasta que se recibe el primer token, menor es mejor), tiempo total (tiempo de reloj para la respuesta completa, menor es mejor) y uso de memoria medido a través de psutil.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Tether: Un Servidor MCP para Compartir Contexto Entre Modelos de IA a través de SQLite
Tether es una herramienta de código abierto que comprime datos JSON en identificadores direccionables por contenido de 28 bytes, permitiendo que múltiples modelos de IA compartan contexto a través de una base de datos SQLite compartida. Funciona como un servidor MCP, facilitando la comunicación directa entre modelos como Claude y MiniMax sin necesidad de copiar y pegar.

Codiff v0.1.0: Un visor local de diferencias para revisiones de código generadas por LLM
Codiff v0.1.0 es una aplicación de escritorio rápida y minimalista para revisar diferencias locales de Git, con modo de recorrido LLM y comentarios en línea que se pueden copiar como Markdown.

Aplicación gratuita para la barra de menús de macOS muestra estadísticas de uso de Claude en tiempo real mediante descifrado de cookies SQLite
Claude Usage Tracker es una aplicación gratuita para la barra de menú de macOS que lee las cookies cifradas de SQLite de la aplicación de escritorio de Claude, las descifra a través del Llavero y muestra el % de sesión, el límite semanal, el gasto y las ejecuciones rutinarias de forma local, sin necesidad de clave API.

Slate: Aplicación de Chat de IA de Código Abierto para macOS con Navegador Integrado
Slate es una aplicación nativa para macOS que combina chat de IA y navegación web en una sola ventana, compatible con los modelos de Anthropic, OpenAI, Gemini y Ollama. Está construida con SwiftUI y WebKit, consume pocos recursos y tiene licencia MIT.