Lokaler KI-Agent auf M4 Mac mini: Praktische Lehren

Einrichtung und Architektur

Ein Entwickler betreibt seit mehreren Monaten einen selbst gehosteten KI-Agenten auf einem M4 Mac mini. Das Setup nutzt eine Rust-Laufzeitumgebung mit qwen2.5:14b auf Ollama für schnelle lokale Inferenz. Das System implementiert eine Modellleiter, die bei anspruchsvolleren Aufgaben auf Cloud-Modelle umschaltet. Der Speicher wird mit SQLite und lokalen Einbettungen über nomic-embed-text für semantischen Abruf über Sitzungen hinweg verwaltet. Der Agent läuft rund um die Uhr via launchd und erledigt verschiedene Aufgaben, darunter die Überwachung eines Trading-Bots, E-Mail-Prüfung, Website-Deployment und die Delegation aufwändiger Implementierungsarbeiten an Claude Code über einen Task-Runner.

Wichtige Erkenntnisse

Speicherarchitektur ist entscheidend: Der Entwickler stellte fest, dass hybrider Abruf durch Kombination von BM25-Schlüsselwortsuche mit Vektorähnlichkeit, gewichtet und zusammengeführt, ein Durchbruch war. Ein 14B-Modell mit gutem Speicherabruf übertrifft ein 70B-Modell, das jede Konversation ohne Kontext beginnt.

Der Systemprompt-Aufwand ist real: Anfängliche Identitätsdateien begannen bei ~10K Tokens, wurden aber auf ~2.800 Tokens reduziert, indem alles entfernt wurde, was der Agent bei Bedarf nachschlagen kann. Die Regel: Wenn der Agent etwas gelegentlich braucht, speichere es im Speicher; wenn er es bei jeder Nachricht braucht, füge es in den Systemprompt ein.

Lokale Einbettungen veränderten die Wirtschaftlichkeit: Die Verwendung von nomic-embed-text auf Ollama neben dem Konversationsmodell macht jeden Speichervorgang und Abruf kostenlos und eliminiert Kosten, die zuvor durch OpenAI-Einbettungsanfragen entstanden.

Die Modellleiter ist wichtiger als das Standardmodell: Der Agent nutzt standardmäßig lokales qwen für Konversationen (kostenlos, schnell), kann aber je nach Aufgabenanforderungen auf Minimax, Kimi, Haiku, Sonnet oder Opus umschalten. Die Schlüsselerkenntnis: Lasse Menschen Modelle manuell mit Befehlen wie /model sonnet für Denkaufgaben und /model qwen für Chats wechseln, anstatt automatisch zu erkennen.

Werkzeug-Iterationsgrenzen benötigen Spielraum: Ein Start mit maximal 10 Werkzeugaufrufen pro Nachricht erwies sich als unzureichend. Einfache Aufgaben verbrauchen 3-5 Werkzeugaufrufe, während komplexe Aufgaben 15-20 benötigen. Das aktuelle Setup verwendet 25 Werkzeugaufrufe mit einer Ratenbegrenzung von 200 Aktionen/Stunde als Sicherheitsnetz.

Der schwierigste Fehler betraf sitzungsübergreifenden Speicher: Explizit über ein Speicherwerkzeug gespeicherte Erinnerungen hatten anfangs keine session_id, und Abfragen filterten nach der aktuellen session_id. Dadurch wurden bewusst gespeicherte Fakten in zukünftigen Sitzungen unsichtbar. Die Lösung war das Hinzufügen von OR session_id IS NULL zur SQL-Abfrage.

📖 Read the full source: r/LocalLLaMA

Praktische Lehren aus dem Aufbau eines dauerhaften lokalen KI-Begleiteragenten

Einrichtung und Architektur

Wichtige Erkenntnisse

👀 Siehe auch

Wie ein Solo-3D-Animator mit Claude Cowork Plugins einen persistenten KI-Business-Entwicklungsassistenten erstellte

KI-gesteuerter Laden nutzt CLI für Einkaufserlebnis

Entwickler veröffentlicht HTML5-Spiel mit der kostenlosen Version von Claude Chat

Entwickler baut KI-Baseball-Simulations-Engine mit Claude Code in zwei Wochen