Lightning MLX: Motor de IA Local Rápido para Uso Agêntico em Apple Silicon Entrega 220 tok/s no Qwen 35B-A3B

✍️ OpenClawRadar📅 Publicado: May 8, 2026🔗 Source

Um novo mecanismo de inferência de código aberto para Apple Silicon chamado Lightning MLX afirma ser o motor de IA local mais rápido, especificamente otimizado para fluxos de trabalho agentivos — agentes de codificação, chamadas de ferramentas e tarefas de curta duração. O projeto está disponível no GitHub em samuelfaj/lightning-mlx.

Resultados de Benchmark

O autor testou em um MacBook Max M5 com 128 GB de RAM e reportou as seguintes velocidades de geração de tokens:

Qwen3.6-27B: 40,67 tok/s
Qwen3.6-35B-A3B: 220,86 tok/s

Esses resultados sugerem que o motor é particularmente eficiente para a arquitetura de mistura de especialistas usada no modelo Qwen3.6-35B-A3B, que ativa apenas um subconjunto de parâmetros por token.

Principais Características

Otimizado para casos de uso agentivos de curta duração — geração de código, chamadas de ferramentas e loops rápidos de inferência
Inclui uma configuração predefinida chamada MTPLX (padrões de amostragem personalizados); o autor está buscando feedback sobre se esses padrões fazem sentido para uso em produção
Código aberto sob licença MIT (provavelmente) no GitHub

Solicitações de Feedback

O criador está pedindo ativamente à comunidade:

Melhores designs de benchmark para agentes de codificação locais
Opiniões sobre os padrões predefinidos do MTPLX
Resultados de testes em outras configurações de Apple Silicon (ex.: M1, M2, M3, M4, diferentes tamanhos de RAM)

Para Quem é

Desenvolvedores que executam LLMs locais em Apple Silicon para fluxos de trabalho agentivos de codificação que precisam de velocidade máxima de inferência.

📖 Leia a fonte original: r/LocalLLaMA

👀 See Also

Tools

Qwen 3.6 27B com MTP em V100 32GB: 54 t/s via ramo llama.cpp

O branch MTP do am17an do llama.cpp executa Qwen 3.6 27B a 54 t/s em V100 32GB via adaptador PCIe, caindo para 29-30 t/s sem MTP.

May 6, 2026, 04:17 AM UTC

OpenClawRadar

Tools

Gerente de Produto Compartilha Mais de 70 Habilidades do Claude para Automatizar Fluxos de Trabalho de GP

Um gerente de produto com 20 anos de experiência criou mais de 70 habilidades para o Claude que automatizam tarefas comuns de GP, incluindo geração de PRD, análise de entrevistas com usuários, perfil competitivo e construção de roadmap. As habilidades estão disponíveis como arquivos .md para download para o Claude Code.

Mar 12, 2026, 09:45 AM UTC

OpenClawRadar

Tools

Jaula de Lagosta: Ambiente de Segurança Dockerizado para Auto-hospedagem do OpenClaw no Raspberry Pi

Um desenvolvedor criou o Lobster Cage, um ambiente Docker Compose com acesso de saída restrito e roteamento baseado em proxy para executar o OpenClaw com segurança em um Raspberry Pi para experimentação.

Mar 15, 2026, 10:45 AM UTC

OpenClawRadar

Tools

Destilaria: Um Plugin de Código Claude para Contexto de Equipe Persistente

Distillery é um plugin para Claude Code que fornece às equipes contexto compartilhado e persistente entre sessões e pessoas. A versão 0.2.0 adiciona busca híbrida, registro de auditoria de autenticação e suporte a uv.

Apr 16, 2026, 11:45 AM UTC

OpenClawRadar