Qwen 35B-A3B als ständig aktiver Agent auf 16 GB M4 Mac: Festplatten-I/O versagt vor RAM

Die Ausführung eines Qwen 35B-A3B MoE-Modells als ständig aktiven Agenten auf einem 16GB M4 Mac Mini (Basisausstattung) schien auf dem Papier plausibel: Mit llama.cpp --mmap und --flash-attn hält die IQ3_XXS-Quantisierung (12 GB auf der Festplatte) den RAM mithilfe von Expert-Paging bei 4–6 GB und liefert ~17 tok/s mit --threads 8 --ctx-size 4096. Als Batch-Tool funktioniert es auf diesem Rechner. Aber die Skalierung auf eine kontinuierliche agentische Schleife, die neben Claude Code (Opus/Sonnet) und Codex CLI läuft, brach zusammen – und der Engpass war die Festplatte, nicht der RAM.
Das Setup, das brach
- Ollama-Daemon, der
qwen3.5:9b+qwen3.5:4bbereitstellt (Konfiguration:OLLAMA_MAX_LOADED_MODELS=2,OLLAMA_KEEP_ALIVE=10m,OLLAMA_FLASH_ATTENTION=1,OLLAMA_KV_CACHE_TYPE=q8_0) llama-serverfür die 35B auf einem eigenen Port- LiteLLM-Bridge, die alles als Claude-kompatiblen Endpunkt auf
:4000proxyed - Eine oder zwei Claude Code-Sitzungen
- Codex CLI-Sitzung
- Übliche Home-Server-Cron, Watcher, Mail-Queue
Was fehlschlug
Kontinuierliches mmap-Paging von der 35B + Claude Codes Datei-Watcher/Indexer + Codex, das Kontext hält = ständige SSD-Konflikte. Der Mac begann spontan neu zu starten (keine Absturzprotokolle in log show --predicate 'eventMessage CONTAINS "panic"'), Hintergrund-Cron-Jobs verpassten Fenster um 5+ Minuten und scheiterten dann still. Bekannte Probleme: Claude Code und Codex CLIs haben offene Fehler für Speicherwachstum in langen Sitzungen (#22968), Leerlauf-CPU-Auslastung (#19393) und akkumulierende Prozesse (#11122). Mit einem Framework ist es unsichtbar; mit zwei plus einer pagingenden 35B, die echte Schleifen ausführt, stirbt zuerst die Festplatte.
Stabiler Workaround
- 35B
llama-serverLaunchDaemon deaktiviert (plist in.disabledumbenannt) - 24 GB durch Löschen des 35B GGUFs und eines alten 26B Gemma zurückgewonnen
- Alle Anthropic-geformten Routen gehen zu Ollama:
qwen3.5:9bfür opus/sonnet,qwen3.5:4bfür haiku - Beide Metal-resident über Ollama (~3 GB GPU + 0,5 GB CPU jeweils), räumen bei Leerlauf sauber auf
- LiteLLM zu einem ordentlichen Benutzer-LaunchAgent verschoben (
KeepAlive=true,ThrottleInterval=30) – es war ein bloßerpython -m litellm-Prozess für 7 Tage
Das Fazit
Der Traum von 35B-A3B-als-Agenten-Schleife lebt auf einer anderen Rechnerklasse. Auf einheitlichen 16 GB ist es ein Single-Purpose-Batch-Tool, keine ständig aktive Schicht. Der Autor schätzt mindestens 32 GB einheitlichen Speicher für anhaltende MoE-Agenten-Inferenz ohne Swap-Probleme oder Daemon-Konflikte.
Falls Sie einen Trick haben, um es nachhaltig auf 16 GB ohne Festplattenkonflikte zu betreiben, der Thread auf r/LocalLLaMA ist noch aktiv.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Claude fehlt technisches Gedächtnis: Bereitschaftsvorfall zeigt fehlendes episodisches Abrufen von Debugging-Reisen
Ein Entwickler verbrachte 10 Stunden damit, einen Kafka-Burst-Fehler in einem Monorepo mit 1500 Dateien zu debuggen, nur um festzustellen, dass er das exakt gleiche Problem vor 4 Monaten bereits gelöst hatte – ein Hinweis darauf, dass KI-Codierungsassistenten wie Claude kein episodisches Gedächtnis für vergangene Debugging-Reisen haben.

OpenClaw 2026.4.29 defekt – Downgrade auf 2026.2.6
OpenClaw Version 2026.4.29 ist defekt: zufällige Fehler, langsame CLI, doppelte Antworten. Ein Downgrade auf 2026.2.6 behebt das Problem.

Claude Pro Abonnementfehler: Bezahlte Nutzer bleiben im kostenlosen Plan
Ein Fehler in Claude Pro nach Nutzung eines Geschenkpasses führt dazu, dass Konten trotz erfolgreicher Zahlung und Quittung auf Free bleiben. Der Anthropic-Support reagiert seit einer Woche nicht.

Claude für Excel und PowerPoint Updates: Kontext- und Fähigkeitenintegration über Anwendungen hinweg
Claude für Excel und PowerPoint teilen nun Konversationskontext über geöffnete Dateien hinweg, wobei Skills in beiden Add-Ins verfügbar sind. Die Tools sind über Amazon Bedrock, Google Clouds Vertex AI und Microsoft Foundry für zahlende Mac- und Windows-Nutzer zugänglich.