Lightning MLX: Schnelle lokale KI-Engine für Apple Silicon Agentic Use liefert 220 tok/s auf Qwen 35B-A3B

✍️ OpenClawRadar📅 Veröffentlicht: 8. Mai 2026🔗 Source

Eine neue Open-Source-Inferenz-Engine für Apple Silicon namens Lightning MLX beansprucht, die schnellste lokale KI-Engine zu sein, die speziell für agentische Workflows optimiert ist — Codierungsagenten, Tool-Aufrufe und kurzzyklische Aufgaben. Das Projekt ist auf GitHub unter samuelfaj/lightning-mlx verfügbar.

Benchmark-Ergebnisse

Der Autor testete auf einem MacBook Max M5 mit 128 GB RAM und berichtete folgende Token-Generierungsgeschwindigkeiten:

Qwen3.6-27B: 40,67 Tok/s
Qwen3.6-35B-A3B: 220,86 Tok/s

Diese Ergebnisse deuten darauf hin, dass die Engine besonders effizient für die Mixture-of-Expert-Architektur des Qwen3.6-35B-A3B-Modells ist, das nur eine Teilmenge der Parameter pro Token aktiviert.

Hauptmerkmale

Optimiert für kurzzyklische agentische Anwendungsfälle — Codegenerierung, Tool-Aufrufe und schnelle Inferenzschleifen
Enthält eine voreingestellte Konfiguration namens MTPLX (benutzerdefinierte Sampling-Standardwerte); der Autor sucht Feedback, ob diese Standardeinstellungen für den Produktionseinsatz sinnvoll sind
Open Source unter der MIT-Lizenz (vermutlich) auf GitHub

Rückmeldungsanfragen

Der Ersteller bittet die Community aktiv um:

Bessere Benchmark-Designs für lokale Codierungsagenten
Meinungen zu den MTPLX-Standardeinstellungen
Testergebnisse auf anderen Apple-Silicon-Konfigurationen (z. B. M1, M2, M3, M4, unterschiedliche RAM-Größen)

Für wen es gedacht ist

Entwickler, die lokale LLMs auf Apple Silicon für agentische Codierungs-Workflows ausführen und maximale Inferenzgeschwindigkeit benötigen.

📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA

👀 Siehe auch

Werkzeuge

Codiff v0.1.0: Ein lokaler Diff-Viewer für LLM-generierte Code-Reviews

Codiff v0.1.0 ist eine schnelle, minimalistische Desktop-App zum Überprüfen lokaler Git-Diffs mit LLM-Walkthrough-Modus und Inline-Kommentaren, die als Markdown kopiert werden können.

17. Mai 2026, 08:19 UTC

OpenClawRadar

Werkzeuge

Lokales Terminal-CRM mit integriertem MCP-Server für Claude-Integration

Ein Entwickler hat ein persönliches CRM-System erstellt, das vollständig im Terminal läuft und Daten lokal in SQLite speichert. Es enthält einen integrierten MCP-Server, der Claude Zugriff auf 18 Tools zur Verwaltung von Kontakten, Deals und Nachverfolgungen bietet.

8. März 2026, 15:45 UTC

OpenClawRadar

Werkzeuge

md-viewer: Ein Live-Reloading-Markdown-Viewer für Claude-Code-Workflows

md-viewer ist ein leichtgewichtiges Rust-Tool, das Live-Reloading für Markdown-Dateien bietet, die von Claude Code generiert werden. Es läuft unabhängig von Editoren, unterstützt Mermaid-Diagramme und kann über AUR, Snap oder Cargo installiert werden.

19. Apr. 2026, 21:45 UTC

OpenClawRadar

Werkzeuge

ClawPort: Open-Source-Orchestrierung für KI-Agenten-Workflows mit Self-Healing-Cron

ClawPort ist eine Open-Source-Orchestrierungsschicht für KI-Agenten-Workflows, die Cron-Pipelines automatisch konfiguriert, bei Fehlern selbstheilend arbeitet und es ermöglicht, Agenten direkt zu testen, bevor sie nach Zeitplan ausgeführt werden.

10. März 2026, 10:45 UTC

OpenClawRadar