Lightning MLX: Motor de IA Local Rápido para Uso Agêntico em Apple Silicon Entrega 220 tok/s no Qwen 35B-A3B

Um novo mecanismo de inferência de código aberto para Apple Silicon chamado Lightning MLX afirma ser o motor de IA local mais rápido, especificamente otimizado para fluxos de trabalho agentivos — agentes de codificação, chamadas de ferramentas e tarefas de curta duração. O projeto está disponível no GitHub em samuelfaj/lightning-mlx.
Resultados de Benchmark
O autor testou em um MacBook Max M5 com 128 GB de RAM e reportou as seguintes velocidades de geração de tokens:
- Qwen3.6-27B: 40,67 tok/s
- Qwen3.6-35B-A3B: 220,86 tok/s
Esses resultados sugerem que o motor é particularmente eficiente para a arquitetura de mistura de especialistas usada no modelo Qwen3.6-35B-A3B, que ativa apenas um subconjunto de parâmetros por token.
Principais Características
- Otimizado para casos de uso agentivos de curta duração — geração de código, chamadas de ferramentas e loops rápidos de inferência
- Inclui uma configuração predefinida chamada MTPLX (padrões de amostragem personalizados); o autor está buscando feedback sobre se esses padrões fazem sentido para uso em produção
- Código aberto sob licença MIT (provavelmente) no GitHub
Solicitações de Feedback
O criador está pedindo ativamente à comunidade:
- Melhores designs de benchmark para agentes de codificação locais
- Opiniões sobre os padrões predefinidos do MTPLX
- Resultados de testes em outras configurações de Apple Silicon (ex.: M1, M2, M3, M4, diferentes tamanhos de RAM)
Para Quem é
Desenvolvedores que executam LLMs locais em Apple Silicon para fluxos de trabalho agentivos de codificação que precisam de velocidade máxima de inferência.
📖 Leia a fonte original: r/LocalLLaMA
👀 See Also

Claude Code Karma: Painel de Observabilidade Local para Sessões do Claude Code
Claude Code Karma é um painel de controle local de código aberto que analisa arquivos JSONL de ~/.claude/ para visualizar dados de sessão do Claude Code, rastrear o uso de ferramentas e monitorar falhas silenciosas. Construído com FastAPI, Svelte-Kit 2, Svelte 5 e SQLite, ele fornece linhas do tempo completas de sessões e rastreamento em tempo real.

O aplicativo QCAI fornece um centro de controle móvel para o ecossistema OpenClaw
Uma equipe de pesquisa acadêmica lançou o aplicativo QCAI para iOS e Android, desenvolvido com assistência de IA, oferecendo monitoramento de painel, chat de gateway e acesso VPN seguro às ferramentas OpenClaw.

Servidor MCP Rastreia Bugs Conhecidos em Ferramentas de Desenvolvimento para Melhorar Recomendações de LLM
nanmesh-mcp é um servidor MCP que rastreia problemas reais em 57 ferramentas de desenvolvimento através de GitHub Issues, Stack Overflow e Reddit, fornecendo dados de bugs atuais para LLMs antes de fazer recomendações de bibliotecas.

PhantomCrowd: Simulador de Público Multiagente Usando Claude Code
PhantomCrowd é um mecanismo de previsão multiagente focado em marketing que simula como audiências reais reagem ao conteúdo antes de ser publicado. Ele gera 10 a 500 personas com demografias e personalidades únicas, cada uma reagindo independentemente a conteúdos como textos publicitários ou posts sociais.