Qwen3.5-122B-A10B-MINT-MLX läuft reibungslos auf dem M5 Pro mit 64 GB RAM.

✍️ OpenClawRadar📅 Veröffentlicht: 20. April 2026🔗 Source
Qwen3.5-122B-A10B-MINT-MLX läuft reibungslos auf dem M5 Pro mit 64 GB RAM.
Ad

Lokale LLM-Leistung auf Apple Silicon

Ein Reddit-Benutzer hat seine Erfahrungen mit der lokalen Ausführung des Qwen3.5-122B-A10B-MINT-MLX-Modells auf einem M5 Pro mit 64 GB RAM geteilt. Das Setup zeigt, dass große Sprachmodelle mit der richtigen Konfiguration effektiv auf Consumer-Hardware laufen können.

Konfigurationsdetails

Der Benutzer erzielte eine reibungslose Leistung mit spezifischen Terminalbefehlen für die VRAM-Zuweisung:

sysctl iogpu.unified_memory_limit_percentage
sudo sysctl iogpu.wired_limit_mb=61440

In LM Studio setzte er das Kontextfenster auf 16384 Token. Mit dieser Konfiguration hielt das System eine stabile Leistung aufrecht, während Safari mit mehreren Tabs, Messages und Activity Monitor gleichzeitig liefen.

Ad

Leistungsbenchmarks

Das Qwen3.5-122B-A10B-MINT-MLX-Modell lieferte:

  • Zeit bis zum ersten Token: 0,86 Sekunden
  • Token-Generierungsgeschwindigkeit: 39,58 Token/Sekunde

Der Benutzer merkte an, dass das Modell „eine Reihe von Rätseln korrekt löste und ein bisschen Vibe-Coding machte“, ohne Beschwerden über die 3-Bit-MINT-Quantisierung. Das einzige Problem trat auf, als sich das Kontextfenster bei einer VRAM-Nutzung von etwa 59 GB füllte und zu einem Systemabsturz führte.

Vergleich mit anderen Modellen

Der Benutzer testete auch „Qwen3.5 40B Claude 4.6 Opus Deckard Heretic Uncensored Thinking Mxfp8“, das er genauer als das 122B-Modell fand, aber deutlich langsamer war:

  • Token-Generierungsgeschwindigkeit: 6,93 Token/Sekunde
  • Die Prompt-Verarbeitung blieb trotz langsamerer Generierung schnell

Dies zeigt den Kompromiss zwischen Modellgröße, Quantisierung und Inferenzgeschwindigkeit, dem Entwickler bei der Auswahl lokaler LLM-Konfigurationen gegenüberstehen.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Neun häufige Fehlermuster bei KI-Codierungsagenten und Validierung vor der Ausführung
Nachrichten

Neun häufige Fehlermuster bei KI-Codierungsagenten und Validierung vor der Ausführung

Ein Reddit-Beitrag identifiziert neun spezifische Fehlermuster, die häufig dazu führen, dass KI-Codierungsagenten versagen, darunter unvollständige Enum-Behandlung, stille Nullpfade und halluzinierte Importe. Der Autor berichtet, dass die Implementierung einer Validierungsphase vor der Ausführung etwa 70 % dieser Fehler abfängt.

OpenClawRadar
Was fehlt in der „agentischen“ Geschichte: eine klar definierte Benutzer-Agent-Rolle
Nachrichten

Was fehlt in der „agentischen“ Geschichte: eine klar definierte Benutzer-Agent-Rolle

Mark Nottingham argumentiert, dass aktuellen KI-Agenten eine klare Benutzeragenten-Rolle fehlt, was eine Vertrauenslücke zwischen den Erwartungen der Nutzer und dem tatsächlichen Verhalten der Agenten schafft.

OpenClawRadar
Claude Code übernimmt die Entfernung des QNX Big Kernel Locks, beginnend mit Benutzerraum-Kontentionsstatistiken
Nachrichten

Claude Code übernimmt die Entfernung des QNX Big Kernel Locks, beginnend mit Benutzerraum-Kontentionsstatistiken

Ein Entwickler bat Claude Code, den QNX-Microkernel umzugestalten, um den Big Kernel Lock zu entfernen. Claude schätzte 3 Monate für einen Top-Entwickler und begann dann damit, /proc-ähnliche Locking-Statistiken zu entwerfen und Kernel-Subsysteme nacheinander zu reparieren.

OpenClawRadar
Claude-Code v2.1.84 fügt PowerShell-Tool, Umgebungsvariablen und mehrere Fehlerbehebungen hinzu
Nachrichten

Claude-Code v2.1.84 fügt PowerShell-Tool, Umgebungsvariablen und mehrere Fehlerbehebungen hinzu

Claude-Code v2.1.84 stellt ein PowerShell-Tool für Windows als Opt-in-Vorschau vor, fügt Umgebungsvariablen für Modellkonfiguration und Streaming-Timeout hinzu und enthält zahlreiche Fehlerbehebungen und Leistungsverbesserungen.

OpenClawRadar