Referência: MLX vs Ollama Executando Qwen3-Coder-Next 8-Bit no MacBook Pro M5 Max

✍️ OpenClawRadar📅 Publicado: April 16, 2026🔗 Source
Referência: MLX vs Ollama Executando Qwen3-Coder-Next 8-Bit no MacBook Pro M5 Max
Ad

Um benchmark foi conduzido comparando dois backends de inferência local—MLX (framework nativo de ML da Apple) e Ollama (baseado em llama.cpp)—executando o mesmo modelo Qwen3-Coder-Next em quantização de 8 bits no Apple Silicon. O objetivo foi medir a taxa de transferência bruta (tokens por segundo), o tempo até o primeiro token (TTFT) e a capacidade geral de programação em tarefas reais de programação.

Metodologia

A configuração utilizada:

  • Backend MLX: mlx-lm v0.29.1 servindo mlx-community/Qwen3-Coder-Next-8bit através do seu servidor HTTP compatível com OpenAI na porta 8080.
  • Backend Ollama: Ollama servindo qwen3-coder-next:Q8_0 através da sua API compatível com OpenAI na porta 11434.

Ambos os backends foram acessados através do mesmo conjunto de testes em Python usando a biblioteca cliente OpenAI com streaming habilitado. Cada teste foi executado em 3 iterações por prompt, com os resultados médios e excluindo o TTFT da primeira iteração para o prompt inicial de inicialização a frio (carregamento do modelo).

Conjunto de Testes

Seis prompts abrangeram um espectro de tarefas de programação:

  • Conclusão Curta: Escreva uma função de verificação de palíndromo (150 tokens máximos)
  • Geração Média: Implemente uma classe de cache LRU com dicas de tipo (500 tokens máximos)
  • Raciocínio Longo: Explique async/await vs threading com exemplos (1000 tokens máximos)
  • Tarefa de Depuração: Encontre e corrija bugs em merge sort + busca binária (800 tokens máximos)
  • Programação Complexa: Fila de bloqueio limitada segura para threads com gerenciador de contexto (1000 tokens máximos)
  • Revisão de Código: Revise 3 funções para desempenho/correção/estilo (1000 tokens máximos)
Ad

Resultados

Taxa de Transferência (Tokens por Segundo) no M5 Max com 128 GB de RAM:

  • Conclusão Curta: Ollama 32,51 tok/s, MLX 69,62 tok/s (MLX +114%)
  • Geração Média: Ollama 35,97 tok/s, MLX 78,28 tok/s (MLX +118%)
  • Raciocínio Longo: Ollama 40,45 tok/s, MLX 78,29 tok/s (MLX +94%)
  • Tarefa de Depuração: Ollama 37,06 tok/s, MLX 74,89 tok/s (MLX +102%)
  • Programação Complexa: Ollama 35,84 tok/s, MLX 76,99 tok/s (MLX +115%)
  • Revisão de Código: Ollama 39,00 tok/s, MLX 74,98 tok/s (MLX +92%)

Média geral: o MLX atingiu aproximadamente 72 tokens por segundo, cerca do dobro da taxa de transferência do Ollama. As métricas medidas incluíram tokens/seg (tokens de saída gerados por segundo, quanto maior melhor), TTFT (tempo desde o envio da solicitação até o recebimento do primeiro token, quanto menor melhor), tempo total (tempo de relógio para resposta completa, quanto menor melhor) e uso de memória medido via psutil.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Opendesk: Algoritmo MCP + SOM para controle da área de trabalho por IA via Claude Code
Tools

Opendesk: Algoritmo MCP + SOM para controle da área de trabalho por IA via Claude Code

Opendesk dá olhos e mãos a agentes de IA no seu desktop através de um servidor MCP com um algoritmo SOM personalizado. Integra-se com Claude Code ou qualquer estrutura agêntica para controle de mouse/teclado, aprendizado, repetição e agendamento.

OpenClawRadar
devopsiphai: Habilidade de código Claude de código aberto audita a saúde operacional em 6 fases
Tools

devopsiphai: Habilidade de código Claude de código aberto audita a saúde operacional em 6 fases

devopsiphai é uma habilidade de código Claude de código aberto que audita a operacionalidade de projetos de produção usando um processo de 6 fases e a estrutura ARC, gerando notas em letras e um TODO.md estruturado com tarefas estimadas por esforço.

OpenClawRadar
StartClaw: Uma ferramenta de automação de navegador headless construída sobre ZeroClaw com integração Claude
Tools

StartClaw: Uma ferramenta de automação de navegador headless construída sobre ZeroClaw com integração Claude

StartClaw é uma ferramenta de automação de navegador construída na base Rust do ZeroClaw com Composio v3 para integrações, projetada para rodar sem interface gráfica na nuvem sem exigir hardware local. Ela usa exclusivamente o Claude para confiabilidade e inclui compactação de contexto integrada que reduz o uso de tokens em aproximadamente 5x.

OpenClawRadar
engram v3.4.0 adiciona plugin Anthropic para manter o Claude Code funcionando sob novos limites de taxa
Tools

engram v3.4.0 adiciona plugin Anthropic para manter o Claude Code funcionando sob novos limites de taxa

engram v3.4.0 introduz um plugin dedicado da Anthropic para Claude Code, adicionando três habilidades para gerenciar custos, consultar contexto e exibir erros. Instale com `/plugin install engram` ou `npm install -g engramx@latest`.

OpenClawRadar