Git-Befehle statt Docker: KI-Agenten-Pipelines vereinfachen

Von komplexer Pipeline zu einfachen Git-Befehlen

Ein Entwickler, der DiffMem – ein git-basiertes Speichersystem für KI-Agenten – aufbaute, stellte fest, dass seine Abrufschicht unnötig komplex war. Er hatte sentence-transformers für Kosinus-Ähnlichkeitsbewertung, rank-bm25 für die Stichwortsuche, eine zweistufige LLM-Pipeline zum Verfeinern von Abfragen und Synthetisieren von Ergebnissen sowie scikit-learn und numpy als Abhängigkeiten. Dies führte zu einem 3GB großen Docker-Image (sentence-transformers zog den gesamten PyTorch mit), Timeouts bei starken Nutzern in etwa 10 % der Fälle und einem Kaltstart, der jedes Mal einen BM25-Index im Arbeitsspeicher neu aufbaute.

Die Erkenntnis: LLMs kennen Git bereits

Die entscheidende Einsicht kam durch die Erkenntnis, dass Unix-Befehle das dichteste Tool-Use-Muster in den Trainingsdaten eines jeden LLM sind. Milliarden von README-Dateien, CI-Skripten und Stack-Overflow-Antworten sind voll von grep, git log und cat-Befehlen. Das LLM benötigt keine maßgeschneiderte Abrufpipeline – es spricht bereits die Sprache der Shell-Befehle.

Die Einzel-Tool-Lösung

Sie ersetzten das gesamte komplexe System durch ein Tool:

{
  "name": "run",
  "description": "Führt einen schreibgeschützten Befehl im Speicher-Repository aus",
  "parameters": {
    "command": "Shell-Befehl (unterstützt |, &&, ||, ; Verkettung)"
  }
}

Das war's. Eine Funktion. Der Agent schreibt Shell-Befehle und kennt bereits grep, git diff, head und andere Unix-Utilities, ohne dass er sie erst lernen müsste.

Wie der Agent arbeitet

Der Agent folgt einem festen Protokoll über seine Schritte hinweg:

Liest das Entitäten-Manifest
Führt eine zeitliche Abfrage gegen das Commit-Protokoll durch
Bündelt seine Untersuchung in einem einzigen Tool-Aufruf
Gibt einen Abrufplan aus
Stoppt

Der Agent gibt Verweise, keine Inhalte zurück. Er liest während seiner Schritte leichte Signale (head -30 für Struktur, grep -n für Stichwörter, git diff HEAD~3.. für aktuelle Änderungen) und teilt dem Code dann mit, was abgerufen werden soll. Der Code löst die Verweise auf und hält den Kontext des Agents schlank.

Praktisches Beispiel

Als ein Nutzer eine Geburtstagsnachricht über Einsamkeit mit Arbeitsdruck schickte, führte der Agent aus:

git log --format='%h %ad' --date=relative --name-only -15

Dies zeigte, dass wife.md und company.md in derselben Sitzung geändert wurden und ein wichtiger Kollege in 2 der letzten 3 Sitzungen auftauchte. Die Nachricht des Nutzers sagte nichts über Arbeit – BM25 hätte company.md nie gefunden, und semantische Ähnlichkeit bei „Einsamkeit an meinem Geburtstag“ wäre auch nicht darauf gekommen. Aber das gemeinsame Auftreten in der Commit-Historie offenbarte die tatsächlich relevante Verbindung.

In Schritt 3 verfasste der Agent einen Tool-Aufruf mit neun Befehlen, die durch Semikolons verkettet waren:

git diff HEAD~2.. -- memories/people/wife.md; git log --stat -5 -- memories/people/wife.md; head -30 memories/people/wife.md; grep -n "birthday|surgery|stress" memories/people/wife.md; tail -50 timeline/2026-03.md; git diff HEAD~3.. -- timeline/2026-03.md; grep -n "project|deliverable" memories/contexts/company.md; git diff HEAD~2.. -- memories/contexts/company.md; git diff HEAD~1.. -- memories/people/colleague.md

Die endgültige Ausgabe war ein JSON-Abrufplan mit spezifischen Git-Diffs, Prioritätsstufen und Token-Schätzungen – keine Inhalte, sondern Verweise. Der Code führte dann die Befehle aus und setzte den Kontext entsprechend des Token-Budgets zusammen.

Ergebnisse

Dieser Ansatz ermöglichte es, rank-bm25, sentence-transformers, scikit-learn und numpy zu löschen. Das Docker-Image schrumpfte um etwa 3GB. Der Server startet schneller, nutzt nur einen Bruchteil des Speichers und hat keinen BM25-Index mehr beim Kaltstart. Die 10%ige Timeout-Rate verschwand. Auf Cloud Run mit echter Nutzerlast war dies keine marginale Verbesserung, sondern eine völlig andere Art von Bereitstellung.

Was übrig bleibt: requests, openai, gitpython.

📖 Read the full source: r/LocalLLaMA