MLX vs Ollama: Qwen3-Coder-Next 8-Bit Benchmark no M5 Max

Um benchmark foi conduzido comparando dois backends de inferência local—MLX (framework nativo de ML da Apple) e Ollama (baseado em llama.cpp)—executando o mesmo modelo Qwen3-Coder-Next em quantização de 8 bits no Apple Silicon. O objetivo foi medir a taxa de transferência bruta (tokens por segundo), o tempo até o primeiro token (TTFT) e a capacidade geral de programação em tarefas reais de programação.

Metodologia

A configuração utilizada:

Backend MLX: mlx-lm v0.29.1 servindo mlx-community/Qwen3-Coder-Next-8bit através do seu servidor HTTP compatível com OpenAI na porta 8080.
Backend Ollama: Ollama servindo qwen3-coder-next:Q8_0 através da sua API compatível com OpenAI na porta 11434.

Ambos os backends foram acessados através do mesmo conjunto de testes em Python usando a biblioteca cliente OpenAI com streaming habilitado. Cada teste foi executado em 3 iterações por prompt, com os resultados médios e excluindo o TTFT da primeira iteração para o prompt inicial de inicialização a frio (carregamento do modelo).

Conjunto de Testes

Seis prompts abrangeram um espectro de tarefas de programação:

Conclusão Curta: Escreva uma função de verificação de palíndromo (150 tokens máximos)
Geração Média: Implemente uma classe de cache LRU com dicas de tipo (500 tokens máximos)
Raciocínio Longo: Explique async/await vs threading com exemplos (1000 tokens máximos)
Tarefa de Depuração: Encontre e corrija bugs em merge sort + busca binária (800 tokens máximos)
Programação Complexa: Fila de bloqueio limitada segura para threads com gerenciador de contexto (1000 tokens máximos)
Revisão de Código: Revise 3 funções para desempenho/correção/estilo (1000 tokens máximos)

Resultados

Taxa de Transferência (Tokens por Segundo) no M5 Max com 128 GB de RAM:

Conclusão Curta: Ollama 32,51 tok/s, MLX 69,62 tok/s (MLX +114%)
Geração Média: Ollama 35,97 tok/s, MLX 78,28 tok/s (MLX +118%)
Raciocínio Longo: Ollama 40,45 tok/s, MLX 78,29 tok/s (MLX +94%)
Tarefa de Depuração: Ollama 37,06 tok/s, MLX 74,89 tok/s (MLX +102%)
Programação Complexa: Ollama 35,84 tok/s, MLX 76,99 tok/s (MLX +115%)
Revisão de Código: Ollama 39,00 tok/s, MLX 74,98 tok/s (MLX +92%)

Média geral: o MLX atingiu aproximadamente 72 tokens por segundo, cerca do dobro da taxa de transferência do Ollama. As métricas medidas incluíram tokens/seg (tokens de saída gerados por segundo, quanto maior melhor), TTFT (tempo desde o envio da solicitação até o recebimento do primeiro token, quanto menor melhor), tempo total (tempo de relógio para resposta completa, quanto menor melhor) e uso de memória medido via psutil.

📖 Read the full source: r/LocalLLaMA

Referência: MLX vs Ollama Executando Qwen3-Coder-Next 8-Bit no MacBook Pro M5 Max

Metodologia

Conjunto de Testes

Resultados

👀 See Also

Claude DevTools: Um Leitor de Logs para Maior Visibilidade do Código no Claude

Ferramenta CLI AI-Setup Gera Automaticamente Arquivos de Configuração de IA para Stacks LLM Locais

Qwen2-0.5B Ajustado para Automação de Tarefas Locais com llama.cpp

Optio: Orquestrando Agentes de Codificação de IA no Kubernetes do Chamado ao PR