Coding-Agent-Sitzungsprotokolle werden lokal gespeichert, könnten offenes föderiertes Training ermöglichen

Wenn Sie Codierungsagenten wie Claude Code oder Codex CLI im Agentenmodus verwenden, protokollieren sie umfassende Sitzungsdaten lokal auf Ihrem Computer. Diese Protokolle erfassen die gesamte Interaktionsschleife: Ihre ursprüngliche Aufgabe, den Denkprozess des Modells, jeden Tool-Aufruf, jede Umgebungsantwort, jeden aufgetretenen Fehler und jeden Wiederholungsversuch. Dadurch entstehen vollständige (Zustand → Aktion → Belohnung → nächster Zustand)-Tupel – genau das Datenformat, das Forscher für bestärkendes Lernen benötigen.
Was in den Protokollen steht
Der Autor der Quelle überprüfte seine eigenen Computer und fand:
- Mac Mini: ~/.claude/projects/ mit 3,1 GB über 1103 Dateien aus 574 agentischen Sitzungen
- MacBook: ~/.codex/sessions/ mit 2,4 GB über 3530 Dateien aus 79 agentischen Sitzungen
- MacBook: ~/.claude/projects/ mit 652 MB über 316 Dateien aus 99 agentischen Sitzungen
Insgesamt identifizierten sie 775 Sitzungen mit echten Tool-Aufrufen, die etwa 41 Millionen Tokens enthalten. Hochgerechnet auf Tausende von Entwicklern könnte dies Hunderte von Milliarden Tokens an echten agentischen Trajektoriedaten darstellen – Daten, für die es derzeit kein offenes Äquivalent wie den Pile-Datensatz gibt.
Warum diese Daten wichtig sind
Die Umgebung liefert klare Rückmeldungssignale: Exit-Code 0 oder nicht, Tests bestehen oder nicht. Dies bietet das fehlende Trainingssignal für kausales Denken, Fehlerbehebung und langfristige Planung – Bereiche, in denen aktuelle Modelle Schwierigkeiten haben. Große KI-Labore sammeln diese Daten bereits intern, um ihre proprietären Modelle zu trainieren, aber es gibt kein offenes Äquivalent, weil die Daten über einzelne Entwicklercomputer verstreut sind.
Der Vorschlag: Föderiertes Lernen
Der Beitrag schlägt föderiertes Lernen vor, bei dem Ihre Daten niemals Ihren Computer verlassen. Sie würden einen kleinen LoRA-Adapter lokal trainieren, nur die Gewichte mit hinzugefügtem Differential-Privacy-Rauschen teilen und im Gegenzug ein verbessertes globales Modell erhalten. Jeder trägt Rechenleistung und Signale bei, ohne seine Rohdaten preiszugeben. Alternativ könnte die Community die Daten anonymisieren, um einen Datensatz für das Feinabstimmen von Modellen zu erstellen.
Praktische Schritte
Um Ihre Protokolle zu erhalten (Claude Code löscht sie standardmäßig nach 30 Tagen):
echo '{"cleanupPeriodDays": 36500}' > ~/.claude/settings.json
Um zu überprüfen, was auf Ihren eigenen Computern gespeichert ist:
du -sh ~/.codex/sessions/ 2>/dev/null
du -sh ~/.claude/projects/ 2>/dev/null
find ~/.codex/sessions/ -name "*.jsonl" | wc -l
find ~/.claude/projects/ -name "*.jsonl" | wc -l
Der Reddit-Beitrag ermutigt Entwickler, ihre Zahlen in den Kommentaren zu teilen, um das tatsächliche Ausmaß ungenutzter Daten in der Community einzuschätzen, mit dem Ziel, ein offenes Äquivalent aufzubauen, wenn genügend Interesse besteht.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Pentagon gibt Anthropic 72 Stunden Zeit, um militärische Nutzung von Claude AI zu ermöglichen
Das Pentagon hat Anthropic ein 72-Stunden-Ultimatum gestellt, um der US-Militär die Nutzung seiner Claude KI zu erlauben, und droht damit, ein Gesetz aus dem Jahr 1950 anzuwenden, um die Einhaltung zu erzwingen, falls das Startup nicht nachkommt.

OpenClaw-Treffen in Peking lockt zahlreiches technisches Publikum an
Ein OpenClaw-Meetup in Peking war bis auf den letzten Platz gefüllt, wobei Entwickler detaillierte Fragen zu Multi-Agenten-Orchestrierung, autonomen Schleifen und privaten Bereitstellungen stellten. Das Publikum war besonders auf eine Demo fokussiert, die zeigte, wie Planner-, Developer- und Verifier-Agenten autonom zusammenarbeiten, um ein Ein-Personen-Unternehmen zu betreiben.

Anthropic-Quellcode-Leaks enthüllen nicht angekündigte Claude-Funktionen und interne Modelle
Anthropic hat versehentlich 500.000 Zeilen Quellcode durchsickern lassen, die Details über unangekündigte Claude-Funktionen enthielten, darunter KAIROS-Hintergrundausführung, Traummodus, Undercover-Modus und ein internes Modell namens Capybara. Dies ist der zweite derartige Leak im Jahr 2025.

OpenClaw 4.2 behebt den Kopplungsfehler und fügt dauerhafte Aufgabenabläufe hinzu.
OpenClaw 4.2 behebt einen Pairing-Fehler, der Nutzer betraf, die um den 31. März aktualisiert haben, und führt dauerhafte Aufgabenabläufe ein, die es langlaufenden Aufgaben ermöglichen, Gateway-Trennungen zu überstehen.