Lightning MLX: Schnelle lokale KI-Engine für Apple Silicon Agentic Use liefert 220 tok/s auf Qwen 35B-A3B

✍️ OpenClawRadar📅 Veröffentlicht: 8. Mai 2026🔗 Source
Lightning MLX: Schnelle lokale KI-Engine für Apple Silicon Agentic Use liefert 220 tok/s auf Qwen 35B-A3B
Ad

Eine neue Open-Source-Inferenz-Engine für Apple Silicon namens Lightning MLX beansprucht, die schnellste lokale KI-Engine zu sein, die speziell für agentische Workflows optimiert ist — Codierungsagenten, Tool-Aufrufe und kurzzyklische Aufgaben. Das Projekt ist auf GitHub unter samuelfaj/lightning-mlx verfügbar.

Benchmark-Ergebnisse

Der Autor testete auf einem MacBook Max M5 mit 128 GB RAM und berichtete folgende Token-Generierungsgeschwindigkeiten:

  • Qwen3.6-27B: 40,67 Tok/s
  • Qwen3.6-35B-A3B: 220,86 Tok/s

Diese Ergebnisse deuten darauf hin, dass die Engine besonders effizient für die Mixture-of-Expert-Architektur des Qwen3.6-35B-A3B-Modells ist, das nur eine Teilmenge der Parameter pro Token aktiviert.

Ad

Hauptmerkmale

  • Optimiert für kurzzyklische agentische Anwendungsfälle — Codegenerierung, Tool-Aufrufe und schnelle Inferenzschleifen
  • Enthält eine voreingestellte Konfiguration namens MTPLX (benutzerdefinierte Sampling-Standardwerte); der Autor sucht Feedback, ob diese Standardeinstellungen für den Produktionseinsatz sinnvoll sind
  • Open Source unter der MIT-Lizenz (vermutlich) auf GitHub

Rückmeldungsanfragen

Der Ersteller bittet die Community aktiv um:

  • Bessere Benchmark-Designs für lokale Codierungsagenten
  • Meinungen zu den MTPLX-Standardeinstellungen
  • Testergebnisse auf anderen Apple-Silicon-Konfigurationen (z. B. M1, M2, M3, M4, unterschiedliche RAM-Größen)

Für wen es gedacht ist

Entwickler, die lokale LLMs auf Apple Silicon für agentische Codierungs-Workflows ausführen und maximale Inferenzgeschwindigkeit benötigen.

📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA

Ad

👀 Siehe auch