Qwen3.5-122B-A10B-MINT-MLX läuft reibungslos auf dem M5 Pro mit 64 GB RAM.

Lokale LLM-Leistung auf Apple Silicon
Ein Reddit-Benutzer hat seine Erfahrungen mit der lokalen Ausführung des Qwen3.5-122B-A10B-MINT-MLX-Modells auf einem M5 Pro mit 64 GB RAM geteilt. Das Setup zeigt, dass große Sprachmodelle mit der richtigen Konfiguration effektiv auf Consumer-Hardware laufen können.
Konfigurationsdetails
Der Benutzer erzielte eine reibungslose Leistung mit spezifischen Terminalbefehlen für die VRAM-Zuweisung:
sysctl iogpu.unified_memory_limit_percentage
sudo sysctl iogpu.wired_limit_mb=61440
In LM Studio setzte er das Kontextfenster auf 16384 Token. Mit dieser Konfiguration hielt das System eine stabile Leistung aufrecht, während Safari mit mehreren Tabs, Messages und Activity Monitor gleichzeitig liefen.
Leistungsbenchmarks
Das Qwen3.5-122B-A10B-MINT-MLX-Modell lieferte:
- Zeit bis zum ersten Token: 0,86 Sekunden
- Token-Generierungsgeschwindigkeit: 39,58 Token/Sekunde
Der Benutzer merkte an, dass das Modell „eine Reihe von Rätseln korrekt löste und ein bisschen Vibe-Coding machte“, ohne Beschwerden über die 3-Bit-MINT-Quantisierung. Das einzige Problem trat auf, als sich das Kontextfenster bei einer VRAM-Nutzung von etwa 59 GB füllte und zu einem Systemabsturz führte.
Vergleich mit anderen Modellen
Der Benutzer testete auch „Qwen3.5 40B Claude 4.6 Opus Deckard Heretic Uncensored Thinking Mxfp8“, das er genauer als das 122B-Modell fand, aber deutlich langsamer war:
- Token-Generierungsgeschwindigkeit: 6,93 Token/Sekunde
- Die Prompt-Verarbeitung blieb trotz langsamerer Generierung schnell
Dies zeigt den Kompromiss zwischen Modellgröße, Quantisierung und Inferenzgeschwindigkeit, dem Entwickler bei der Auswahl lokaler LLM-Konfigurationen gegenüberstehen.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Neun häufige Fehlermuster bei KI-Codierungsagenten und Validierung vor der Ausführung
Ein Reddit-Beitrag identifiziert neun spezifische Fehlermuster, die häufig dazu führen, dass KI-Codierungsagenten versagen, darunter unvollständige Enum-Behandlung, stille Nullpfade und halluzinierte Importe. Der Autor berichtet, dass die Implementierung einer Validierungsphase vor der Ausführung etwa 70 % dieser Fehler abfängt.

Was fehlt in der „agentischen“ Geschichte: eine klar definierte Benutzer-Agent-Rolle
Mark Nottingham argumentiert, dass aktuellen KI-Agenten eine klare Benutzeragenten-Rolle fehlt, was eine Vertrauenslücke zwischen den Erwartungen der Nutzer und dem tatsächlichen Verhalten der Agenten schafft.

Claude Code übernimmt die Entfernung des QNX Big Kernel Locks, beginnend mit Benutzerraum-Kontentionsstatistiken
Ein Entwickler bat Claude Code, den QNX-Microkernel umzugestalten, um den Big Kernel Lock zu entfernen. Claude schätzte 3 Monate für einen Top-Entwickler und begann dann damit, /proc-ähnliche Locking-Statistiken zu entwerfen und Kernel-Subsysteme nacheinander zu reparieren.

Claude-Code v2.1.84 fügt PowerShell-Tool, Umgebungsvariablen und mehrere Fehlerbehebungen hinzu
Claude-Code v2.1.84 stellt ein PowerShell-Tool für Windows als Opt-in-Vorschau vor, fügt Umgebungsvariablen für Modellkonfiguration und Streaming-Timeout hinzu und enthält zahlreiche Fehlerbehebungen und Leistungsverbesserungen.