Lightning MLX: Schnelle lokale KI-Engine für Apple Silicon Agentic Use liefert 220 tok/s auf Qwen 35B-A3B

Eine neue Open-Source-Inferenz-Engine für Apple Silicon namens Lightning MLX beansprucht, die schnellste lokale KI-Engine zu sein, die speziell für agentische Workflows optimiert ist — Codierungsagenten, Tool-Aufrufe und kurzzyklische Aufgaben. Das Projekt ist auf GitHub unter samuelfaj/lightning-mlx verfügbar.
Benchmark-Ergebnisse
Der Autor testete auf einem MacBook Max M5 mit 128 GB RAM und berichtete folgende Token-Generierungsgeschwindigkeiten:
- Qwen3.6-27B: 40,67 Tok/s
- Qwen3.6-35B-A3B: 220,86 Tok/s
Diese Ergebnisse deuten darauf hin, dass die Engine besonders effizient für die Mixture-of-Expert-Architektur des Qwen3.6-35B-A3B-Modells ist, das nur eine Teilmenge der Parameter pro Token aktiviert.
Hauptmerkmale
- Optimiert für kurzzyklische agentische Anwendungsfälle — Codegenerierung, Tool-Aufrufe und schnelle Inferenzschleifen
- Enthält eine voreingestellte Konfiguration namens MTPLX (benutzerdefinierte Sampling-Standardwerte); der Autor sucht Feedback, ob diese Standardeinstellungen für den Produktionseinsatz sinnvoll sind
- Open Source unter der MIT-Lizenz (vermutlich) auf GitHub
Rückmeldungsanfragen
Der Ersteller bittet die Community aktiv um:
- Bessere Benchmark-Designs für lokale Codierungsagenten
- Meinungen zu den MTPLX-Standardeinstellungen
- Testergebnisse auf anderen Apple-Silicon-Konfigurationen (z. B. M1, M2, M3, M4, unterschiedliche RAM-Größen)
Für wen es gedacht ist
Entwickler, die lokale LLMs auf Apple Silicon für agentische Codierungs-Workflows ausführen und maximale Inferenzgeschwindigkeit benötigen.
📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

MarkView: Open-Source-Tool rendert und verwaltet KI-generierte Markdown-Dateien
MarkView ist ein privat-fokussiertes Rendering-Engine, das Markdown-Dateien mit Mermaid-Diagrammen und KaTeX-Mathematik anzeigt und als Web-App, native macOS-App sowie MCP-Server für Claude Desktop und Cursor-Integration verfügbar ist.

Garry Tans gstack: Ein Open-Source-AI-Agent-Framework für Claude Code
Garry Tans gstack ist eine Open-Source-Softwarefabrik, die Claude Code in ein virtuelles Engineering-Team verwandelt, mit 13 spezialisierten Slash-Befehlen für Planung, Design, Entwicklung, Review, QA und Release-Management.

OpenClaw-Fähigkeit fügt KI-Bildgenerierung mit lokaler ComfyUI-Unterstützung und kuratierten Prompts hinzu
Eine neue OpenClaw-Fähigkeit bietet KI-Bildgenerierung direkt im Terminal mit über 1.300 kuratierten Prompts, lokaler ComfyUI-Integration und Prompt-Verbesserungs-Workflows.

Kostenlose Bibliothek mit 789 herunterladbaren Skills für Claude Code
clskills.in ist eine durchsuchbare Plattform, die 789 herunterladbare .md-Skill-Dateien für Claude Code in über 60 Kategorien anbietet, darunter Unternehmensplattformen, Programmiersprachen und DevOps-Tools. Jeder Download enthält eine README-Datei und einen automatischen Installations-Prompt.