Claude Agentenschwarm: 30-43% Token-Kosten sparen mit Speicher

Benchmark für Speichersysteme bei Claude-Agentenschwärmen

Ein Entwickler hat neun Monate lang an einem Speichersystem namens Stompy gearbeitet, das sich von dateibasiert über SQLite zu PostgreSQL entwickelt hat. Das Ziel war es, den Token-Verbrauch bei der Ausführung von Claude-Agentenschwärmen zu minimieren. Es wurde ein Benchmark durchgeführt, der die Leistung mit und ohne das Speichersystem vergleicht.

Testaufbau

Der Benchmark verwendete eine 40-Punkte-Coding-Aufgabe, die eine vollständige Buchungsfunktion mit Backend, Frontend und Tests erforderte. Ein 6-Agenten-Schwarm wurde mit drei verschiedenen Claude-Modellen als Hauptagent getestet: Sonnet 4.6, Opus 4.6 und Haiku 4.5. Alle Tests nutzten dieselbe Codebasis, dieselben Teammitglieder und dasselbe Bewertungssystem. Die Teammitglieder-Agenten liefen unabhängig vom Hauptmodell immer mit Opus.

Benchmark-Ergebnisse

Sonnet 4.6 + Speicher: 40/40, 3,98 $, 6,5 min, 2 Durchläufe
Sonnet 4.6 ohne Speicher: 40/40, 7,04 $, 9,6 min, 4 Durchläufe
Opus 4.6 + Speicher: 40/40, 4,34 $, 9,6 min, 29 Durchläufe
Opus 4.6 ohne Speicher: 40/40, 7,65 $, 10,0 min, 70 Durchläufe
Haiku 4.5 + Speicher: 39/40, 4,95 $, 7,5 min, 2 Durchläufe
Haiku 4.5 ohne Speicher: 0/40, 3,97 $, 5,8 min, 3 Durchläufe

Wichtige Erkenntnisse

Opus und Sonnet mit Speicher sparten etwa 43 % der Kosten im Vergleich zum Betrieb ohne Speicher. Der Entwickler merkt an, dass diese Modelle intelligent genug sind, um die Aufgabe ohne Speicher zu bewältigen, aber sie verschwenden Token für die Erkundung der Codebasis, was das Speichersystem eliminiert.

Das Haiku-Ergebnis war unerwartet: Ohne Speicher erzielte es 0/40 Punkte, aber mit Speicher 39/40. Der Entwickler beobachtete, dass Haiku die Opus-Teammitglieder ohne Verständnis der Projektstruktur nicht koordinieren konnte, aber mit Speicherzugriff zu einem kompetenten Hauptagenten wurde.

Sonnet mit Speicher war die insgesamt beste Konfiguration und übertraf Opus ohne Speicher in jeder Metrik bei etwa halben Kosten. Die Erkenntnis ist, dass die Verfügbarkeit von Projektwissen für das Modell wichtiger ist als die Verwendung teurer Modelle.

Technische Details

Das Speichersystem heißt Stompy und basiert auf MCP/API/CLI, funktioniert mit Claude Code. Der Benchmark-Aufbau ist auf GitHub verfügbar, damit andere ihn nutzen oder verbessern können. Der Entwickler merkt an, dass dies bisher n=1 pro Bedingung ist, weitere Durchläufe sind geplant.

📖 Read the full source: r/ClaudeAI