Benchmark-Ergebnisse: Claude-Agentenschwarm mit Speichersystem zeigt 30–43 % Einsparungen bei Token-Kosten

Benchmark für Speichersysteme bei Claude-Agentenschwärmen
Ein Entwickler hat neun Monate lang an einem Speichersystem namens Stompy gearbeitet, das sich von dateibasiert über SQLite zu PostgreSQL entwickelt hat. Das Ziel war es, den Token-Verbrauch bei der Ausführung von Claude-Agentenschwärmen zu minimieren. Es wurde ein Benchmark durchgeführt, der die Leistung mit und ohne das Speichersystem vergleicht.
Testaufbau
Der Benchmark verwendete eine 40-Punkte-Coding-Aufgabe, die eine vollständige Buchungsfunktion mit Backend, Frontend und Tests erforderte. Ein 6-Agenten-Schwarm wurde mit drei verschiedenen Claude-Modellen als Hauptagent getestet: Sonnet 4.6, Opus 4.6 und Haiku 4.5. Alle Tests nutzten dieselbe Codebasis, dieselben Teammitglieder und dasselbe Bewertungssystem. Die Teammitglieder-Agenten liefen unabhängig vom Hauptmodell immer mit Opus.
Benchmark-Ergebnisse
- Sonnet 4.6 + Speicher: 40/40, 3,98 $, 6,5 min, 2 Durchläufe
- Sonnet 4.6 ohne Speicher: 40/40, 7,04 $, 9,6 min, 4 Durchläufe
- Opus 4.6 + Speicher: 40/40, 4,34 $, 9,6 min, 29 Durchläufe
- Opus 4.6 ohne Speicher: 40/40, 7,65 $, 10,0 min, 70 Durchläufe
- Haiku 4.5 + Speicher: 39/40, 4,95 $, 7,5 min, 2 Durchläufe
- Haiku 4.5 ohne Speicher: 0/40, 3,97 $, 5,8 min, 3 Durchläufe
Wichtige Erkenntnisse
Opus und Sonnet mit Speicher sparten etwa 43 % der Kosten im Vergleich zum Betrieb ohne Speicher. Der Entwickler merkt an, dass diese Modelle intelligent genug sind, um die Aufgabe ohne Speicher zu bewältigen, aber sie verschwenden Token für die Erkundung der Codebasis, was das Speichersystem eliminiert.
Das Haiku-Ergebnis war unerwartet: Ohne Speicher erzielte es 0/40 Punkte, aber mit Speicher 39/40. Der Entwickler beobachtete, dass Haiku die Opus-Teammitglieder ohne Verständnis der Projektstruktur nicht koordinieren konnte, aber mit Speicherzugriff zu einem kompetenten Hauptagenten wurde.
Sonnet mit Speicher war die insgesamt beste Konfiguration und übertraf Opus ohne Speicher in jeder Metrik bei etwa halben Kosten. Die Erkenntnis ist, dass die Verfügbarkeit von Projektwissen für das Modell wichtiger ist als die Verwendung teurer Modelle.
Technische Details
Das Speichersystem heißt Stompy und basiert auf MCP/API/CLI, funktioniert mit Claude Code. Der Benchmark-Aufbau ist auf GitHub verfügbar, damit andere ihn nutzen oder verbessern können. Der Entwickler merkt an, dass dies bisher n=1 pro Bedingung ist, weitere Durchläufe sind geplant.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Arena KI-Modell ELO-Verlauf verfolgt LLM-Leistungsverfall über Zeit
Ein Live-Dashboard visualisiert ELO-Bewertungen der Flaggschiff-Modelle großer KI-Labors und zeigt eine allmähliche Leistungsverschlechterung sowie plötzliche Sprünge bei neuen Veröffentlichungen. Das Tool zeichnet dynamisch eine Kurve pro Labor und verfolgt das am höchsten bewertete Modell.

Claude Code Remote Control: Lokale Sitzungen von jedem Gerät aus fortsetzen
Claude Code Remote Control ermöglicht es Ihnen, lokale Claude Code-Sitzungen von anderen Geräten wie Telefonen oder Browsern aus fortzusetzen, während alles auf Ihrem Computer weiterläuft. Es ist als Forschungsvorschau auf Pro- und Max-Plänen verfügbar und erfordert Authentifizierung und die Einrichtung von Workspace-Vertrauen.

Benchmarking von Nemotron 3 Super 120B mit 1M Token-Kontext auf M1 Ultra
Ein Nutzer testete Nemotron 3 Super 120B mit einem Q4_K_M quantisierten Modell unter Verwendung von llama.cpp auf einem M1 Ultra und erreichte ein Kontextfenster von 1 Million Token, das etwa 90 GB VRAM verbrauchte. Leistungsbenchmarks zeigen Token-Generierungsgeschwindigkeiten von 255 t/s bei 512 Token Prompt-Verarbeitung bis hinab zu 22,37 t/s bei einem Kontext von 100.000 Token.

ClawedBack: OpenClaw-Port läuft innerhalb von Claude Code
ClawedBack ist eine Clean-Room-Portierung von OpenClaw, die innerhalb von Claude Code läuft und First-Party-Prompt-Caching sowie Ratenbegrenzungen bietet. Es entspricht 19 von 23 der integrierten Tools von OpenClaw und ist vollständig ClawHub-kompatibel mit obligatorischen Sicherheitsscans für Importe.