Lightning MLX: Motor de IA Local Rápido para Uso Agêntico em Apple Silicon Entrega 220 tok/s no Qwen 35B-A3B

✍️ OpenClawRadar📅 Publicado: May 8, 2026🔗 Source
Lightning MLX: Motor de IA Local Rápido para Uso Agêntico em Apple Silicon Entrega 220 tok/s no Qwen 35B-A3B
Ad

Um novo mecanismo de inferência de código aberto para Apple Silicon chamado Lightning MLX afirma ser o motor de IA local mais rápido, especificamente otimizado para fluxos de trabalho agentivos — agentes de codificação, chamadas de ferramentas e tarefas de curta duração. O projeto está disponível no GitHub em samuelfaj/lightning-mlx.

Resultados de Benchmark

O autor testou em um MacBook Max M5 com 128 GB de RAM e reportou as seguintes velocidades de geração de tokens:

  • Qwen3.6-27B: 40,67 tok/s
  • Qwen3.6-35B-A3B: 220,86 tok/s

Esses resultados sugerem que o motor é particularmente eficiente para a arquitetura de mistura de especialistas usada no modelo Qwen3.6-35B-A3B, que ativa apenas um subconjunto de parâmetros por token.

Ad

Principais Características

  • Otimizado para casos de uso agentivos de curta duração — geração de código, chamadas de ferramentas e loops rápidos de inferência
  • Inclui uma configuração predefinida chamada MTPLX (padrões de amostragem personalizados); o autor está buscando feedback sobre se esses padrões fazem sentido para uso em produção
  • Código aberto sob licença MIT (provavelmente) no GitHub

Solicitações de Feedback

O criador está pedindo ativamente à comunidade:

  • Melhores designs de benchmark para agentes de codificação locais
  • Opiniões sobre os padrões predefinidos do MTPLX
  • Resultados de testes em outras configurações de Apple Silicon (ex.: M1, M2, M3, M4, diferentes tamanhos de RAM)

Para Quem é

Desenvolvedores que executam LLMs locais em Apple Silicon para fluxos de trabalho agentivos de codificação que precisam de velocidade máxima de inferência.

📖 Leia a fonte original: r/LocalLLaMA

Ad

👀 See Also

Claude Code Karma: Painel de Observabilidade Local para Sessões do Claude Code
Tools

Claude Code Karma: Painel de Observabilidade Local para Sessões do Claude Code

Claude Code Karma é um painel de controle local de código aberto que analisa arquivos JSONL de ~/.claude/ para visualizar dados de sessão do Claude Code, rastrear o uso de ferramentas e monitorar falhas silenciosas. Construído com FastAPI, Svelte-Kit 2, Svelte 5 e SQLite, ele fornece linhas do tempo completas de sessões e rastreamento em tempo real.

OpenClawRadar
O aplicativo QCAI fornece um centro de controle móvel para o ecossistema OpenClaw
Tools

O aplicativo QCAI fornece um centro de controle móvel para o ecossistema OpenClaw

Uma equipe de pesquisa acadêmica lançou o aplicativo QCAI para iOS e Android, desenvolvido com assistência de IA, oferecendo monitoramento de painel, chat de gateway e acesso VPN seguro às ferramentas OpenClaw.

OpenClawRadar
Servidor MCP Rastreia Bugs Conhecidos em Ferramentas de Desenvolvimento para Melhorar Recomendações de LLM
Tools

Servidor MCP Rastreia Bugs Conhecidos em Ferramentas de Desenvolvimento para Melhorar Recomendações de LLM

nanmesh-mcp é um servidor MCP que rastreia problemas reais em 57 ferramentas de desenvolvimento através de GitHub Issues, Stack Overflow e Reddit, fornecendo dados de bugs atuais para LLMs antes de fazer recomendações de bibliotecas.

OpenClawRadar
PhantomCrowd: Simulador de Público Multiagente Usando Claude Code
Tools

PhantomCrowd: Simulador de Público Multiagente Usando Claude Code

PhantomCrowd é um mecanismo de previsão multiagente focado em marketing que simula como audiências reais reagem ao conteúdo antes de ser publicado. Ele gera 10 a 500 personas com demografias e personalidades únicas, cada uma reagindo independentemente a conteúdos como textos publicitários ou posts sociais.

OpenClawRadar