Praktische Lehren aus dem Aufbau eines dauerhaften lokalen KI-Begleiteragenten

✍️ OpenClawRadar📅 Veröffentlicht: 24. März 2026🔗 Source
Praktische Lehren aus dem Aufbau eines dauerhaften lokalen KI-Begleiteragenten
Ad

Einrichtung und Architektur

Ein Entwickler betreibt seit mehreren Monaten einen selbst gehosteten KI-Agenten auf einem M4 Mac mini. Das Setup nutzt eine Rust-Laufzeitumgebung mit qwen2.5:14b auf Ollama für schnelle lokale Inferenz. Das System implementiert eine Modellleiter, die bei anspruchsvolleren Aufgaben auf Cloud-Modelle umschaltet. Der Speicher wird mit SQLite und lokalen Einbettungen über nomic-embed-text für semantischen Abruf über Sitzungen hinweg verwaltet. Der Agent läuft rund um die Uhr via launchd und erledigt verschiedene Aufgaben, darunter die Überwachung eines Trading-Bots, E-Mail-Prüfung, Website-Deployment und die Delegation aufwändiger Implementierungsarbeiten an Claude Code über einen Task-Runner.

Ad

Wichtige Erkenntnisse

Speicherarchitektur ist entscheidend: Der Entwickler stellte fest, dass hybrider Abruf durch Kombination von BM25-Schlüsselwortsuche mit Vektorähnlichkeit, gewichtet und zusammengeführt, ein Durchbruch war. Ein 14B-Modell mit gutem Speicherabruf übertrifft ein 70B-Modell, das jede Konversation ohne Kontext beginnt.

Der Systemprompt-Aufwand ist real: Anfängliche Identitätsdateien begannen bei ~10K Tokens, wurden aber auf ~2.800 Tokens reduziert, indem alles entfernt wurde, was der Agent bei Bedarf nachschlagen kann. Die Regel: Wenn der Agent etwas gelegentlich braucht, speichere es im Speicher; wenn er es bei jeder Nachricht braucht, füge es in den Systemprompt ein.

Lokale Einbettungen veränderten die Wirtschaftlichkeit: Die Verwendung von nomic-embed-text auf Ollama neben dem Konversationsmodell macht jeden Speichervorgang und Abruf kostenlos und eliminiert Kosten, die zuvor durch OpenAI-Einbettungsanfragen entstanden.

Die Modellleiter ist wichtiger als das Standardmodell: Der Agent nutzt standardmäßig lokales qwen für Konversationen (kostenlos, schnell), kann aber je nach Aufgabenanforderungen auf Minimax, Kimi, Haiku, Sonnet oder Opus umschalten. Die Schlüsselerkenntnis: Lasse Menschen Modelle manuell mit Befehlen wie /model sonnet für Denkaufgaben und /model qwen für Chats wechseln, anstatt automatisch zu erkennen.

Werkzeug-Iterationsgrenzen benötigen Spielraum: Ein Start mit maximal 10 Werkzeugaufrufen pro Nachricht erwies sich als unzureichend. Einfache Aufgaben verbrauchen 3-5 Werkzeugaufrufe, während komplexe Aufgaben 15-20 benötigen. Das aktuelle Setup verwendet 25 Werkzeugaufrufe mit einer Ratenbegrenzung von 200 Aktionen/Stunde als Sicherheitsnetz.

Der schwierigste Fehler betraf sitzungsübergreifenden Speicher: Explizit über ein Speicherwerkzeug gespeicherte Erinnerungen hatten anfangs keine session_id, und Abfragen filterten nach der aktuellen session_id. Dadurch wurden bewusst gespeicherte Fakten in zukünftigen Sitzungen unsichtbar. Die Lösung war das Hinzufügen von OR session_id IS NULL zur SQL-Abfrage.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Wie ein Solo-3D-Animator mit Claude Cowork Plugins einen persistenten KI-Business-Entwicklungsassistenten erstellte
Anwendungsfälle

Wie ein Solo-3D-Animator mit Claude Cowork Plugins einen persistenten KI-Business-Entwicklungsassistenten erstellte

Ein Ein-Personen-3D-Animationstudio hat mit Claude Cowork-Plugins einen persistenten KI-Business-Development-Assistenten (Reid) entwickelt – für Prospect-Recherche, Follow-up-Tracking, Pitch-Vorbereitung und Strategie. Schlüsseldesign: eine Rolle mit strategischer, direkter Persönlichkeit, die alle Outputs prägt.

OpenClawRadar
KI-gesteuerter Laden nutzt CLI für Einkaufserlebnis
Anwendungsfälle

KI-gesteuerter Laden nutzt CLI für Einkaufserlebnis

Ultrathink hat einen Laden errichtet, der vollständig von KI-Agenten betrieben wird, ohne menschliches Eingreifen bei Design, Abwicklung oder Marketing. Das Einkaufserlebnis ist terminalorientiert, sodass Nutzer über CLI-Befehle stöbern, Artikel in den Warenkorb legen und bezahlen können.

OpenClawRadar
Entwickler veröffentlicht HTML5-Spiel mit der kostenlosen Version von Claude Chat
Anwendungsfälle

Entwickler veröffentlicht HTML5-Spiel mit der kostenlosen Version von Claude Chat

Ein Entwickler mit 20-jähriger Erfahrung in der C-Spielprogrammierung nutzte die kostenlose Version von Claude Chat, um über 30 Tage hinweg ein modernes HTML5-Weltraum-Shooter-Spiel zu entwickeln, wobei er täglich etwa eine Stunde arbeitete. Das Spiel umfasst prozedurale Sounds, KI für Gegner, Aufwertungssysteme und Wellenmechaniken.

OpenClawRadar
Entwickler baut KI-Baseball-Simulations-Engine mit Claude Code in zwei Wochen
Anwendungsfälle

Entwickler baut KI-Baseball-Simulations-Engine mit Claude Code in zwei Wochen

Ein Entwickler nutzte Claude Code, um ein komplettes Baseball-Simulationssystem mit 30 KI-gesteuerten MLB-Teams, Spielzusammenfassungen, Pressekonferenzen und Audio-Podcasts zu erstellen. Das Projekt kostete 50 US-Dollar an API-Guthaben und umfasst eine Simulations-Engine, eine Content-Pipeline, einen Discord-Bot und eine Website.

OpenClawRadar