Lightning MLX: Motor de AI local rápido para uso agente en Apple Silicon ofrece 220 tok/s en Qwen 35B-A3B

✍️ OpenClawRadar📅 Publicado: 8 de mayo de 2026🔗 Source
Lightning MLX: Motor de AI local rápido para uso agente en Apple Silicon ofrece 220 tok/s en Qwen 35B-A3B
Ad

Un nuevo motor de inferencia de código abierto para Apple Silicon llamado Lightning MLX afirma ser el motor de IA local más rápido, específicamente optimizado para flujos de trabajo agénticos — agentes de código, llamadas a herramientas y tareas de respuesta corta. El proyecto está disponible en GitHub en samuelfaj/lightning-mlx.

Resultados de Benchmark

El autor probó en un MacBook Max M5 con 128 GB de RAM e informó las siguientes velocidades de generación de tokens:

  • Qwen3.6-27B: 40.67 tok/s
  • Qwen3.6-35B-A3B: 220.86 tok/s

Estos resultados sugieren que el motor es particularmente eficiente para la arquitectura de mezcla de expertos utilizada en el modelo Qwen3.6-35B-A3B, que activa solo un subconjunto de parámetros por token.

Ad

Características Clave

  • Optimizado para casos de uso agénticos de respuesta corta — generación de código, llamadas a herramientas y bucles de inferencia rápida
  • Incluye una configuración preestablecida llamada MTPLX (valores predeterminados de muestreo personalizados); el autor busca comentarios sobre si estos valores predeterminados tienen sentido para uso en producción
  • Código abierto bajo la licencia MIT (probablemente) en GitHub

Solicitudes de Comentarios

El creador está pidiendo activamente a la comunidad:

  • Mejores diseños de benchmark para agentes de código locales
  • Opiniones sobre los valores predeterminados del preset MTPLX
  • Resultados de pruebas en otras configuraciones de Apple Silicon (por ejemplo, M1, M2, M3, M4, diferentes tamaños de RAM)

Para Quién Es

Desarrolladores que ejecutan LLMs locales en Apple Silicon para flujos de trabajo agénticos de codificación que necesitan máxima velocidad de inferencia.

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Herramienta CLI de código abierto sdf utiliza Claude para gestionar PRs apilados en GitHub.
Herramientas

Herramienta CLI de código abierto sdf utiliza Claude para gestionar PRs apilados en GitHub.

sdf es una herramienta CLI gratuita con licencia MIT que automatiza flujos de trabajo de solicitudes de extracción apiladas usando git y gh, con Claude CLI manejando tareas complejas como análisis de diferencias y resolución de conflictos.

OpenClawRadar
50 aplicaciones populares reconstruidas en especificaciones de diseño legibles por Claude: Patrones clave para clonar interfaces de usuario
Herramientas

50 aplicaciones populares reconstruidas en especificaciones de diseño legibles por Claude: Patrones clave para clonar interfaces de usuario

u/meliwat realizó ingeniería inversa de 50 aplicaciones populares para convertirlas en especificaciones de diseño estructuradas en markdown. Claude logra clones de UI con valores exactos, cobertura de estados, escalas de espaciado y gráficos de navegación. La prosa extensa degrada la salida.

OpenClawRadar
OpenPlawd: Habilidad de OpenClaw para Notas Automatizadas de Reuniones Plaud
Herramientas

OpenPlawd: Habilidad de OpenClaw para Notas Automatizadas de Reuniones Plaud

OpenPlawd es una habilidad de OpenClaw que procesa automáticamente las grabaciones de Plaud y las convierte en notas de reunión estructuradas en HTML. Consulta las cuentas de Plaud cada hora, transcribe con Whisper o OpenAI, divide archivos grandes y genera notas con elementos de acción mediante un agente de OpenClaw.

OpenClawRadar
Consulta Tu Sprint de Jira Mediante Claude MCP: Estado Instantáneo, Incidencias Sin Asignar y Elementos Bloqueados
Herramientas

Consulta Tu Sprint de Jira Mediante Claude MCP: Estado Instantáneo, Incidencias Sin Asignar y Elementos Bloqueados

Un usuario de Reddit conectó Jira a Claude mediante MCP, luego hizo preguntas en lenguaje natural sobre su sprint y obtuvo tablas limpias al instante, sin tener que hacer clic en los tableros.

OpenClawRadar