Benchmark-Ergebnisse: Claude-Agentenschwarm mit Speichersystem zeigt 30–43 % Einsparungen bei Token-Kosten

✍️ OpenClawRadar📅 Veröffentlicht: 8. März 2026🔗 Source
Benchmark-Ergebnisse: Claude-Agentenschwarm mit Speichersystem zeigt 30–43 % Einsparungen bei Token-Kosten
Ad

Benchmark für Speichersysteme bei Claude-Agentenschwärmen

Ein Entwickler hat neun Monate lang an einem Speichersystem namens Stompy gearbeitet, das sich von dateibasiert über SQLite zu PostgreSQL entwickelt hat. Das Ziel war es, den Token-Verbrauch bei der Ausführung von Claude-Agentenschwärmen zu minimieren. Es wurde ein Benchmark durchgeführt, der die Leistung mit und ohne das Speichersystem vergleicht.

Testaufbau

Der Benchmark verwendete eine 40-Punkte-Coding-Aufgabe, die eine vollständige Buchungsfunktion mit Backend, Frontend und Tests erforderte. Ein 6-Agenten-Schwarm wurde mit drei verschiedenen Claude-Modellen als Hauptagent getestet: Sonnet 4.6, Opus 4.6 und Haiku 4.5. Alle Tests nutzten dieselbe Codebasis, dieselben Teammitglieder und dasselbe Bewertungssystem. Die Teammitglieder-Agenten liefen unabhängig vom Hauptmodell immer mit Opus.

Benchmark-Ergebnisse

  • Sonnet 4.6 + Speicher: 40/40, 3,98 $, 6,5 min, 2 Durchläufe
  • Sonnet 4.6 ohne Speicher: 40/40, 7,04 $, 9,6 min, 4 Durchläufe
  • Opus 4.6 + Speicher: 40/40, 4,34 $, 9,6 min, 29 Durchläufe
  • Opus 4.6 ohne Speicher: 40/40, 7,65 $, 10,0 min, 70 Durchläufe
  • Haiku 4.5 + Speicher: 39/40, 4,95 $, 7,5 min, 2 Durchläufe
  • Haiku 4.5 ohne Speicher: 0/40, 3,97 $, 5,8 min, 3 Durchläufe
Ad

Wichtige Erkenntnisse

Opus und Sonnet mit Speicher sparten etwa 43 % der Kosten im Vergleich zum Betrieb ohne Speicher. Der Entwickler merkt an, dass diese Modelle intelligent genug sind, um die Aufgabe ohne Speicher zu bewältigen, aber sie verschwenden Token für die Erkundung der Codebasis, was das Speichersystem eliminiert.

Das Haiku-Ergebnis war unerwartet: Ohne Speicher erzielte es 0/40 Punkte, aber mit Speicher 39/40. Der Entwickler beobachtete, dass Haiku die Opus-Teammitglieder ohne Verständnis der Projektstruktur nicht koordinieren konnte, aber mit Speicherzugriff zu einem kompetenten Hauptagenten wurde.

Sonnet mit Speicher war die insgesamt beste Konfiguration und übertraf Opus ohne Speicher in jeder Metrik bei etwa halben Kosten. Die Erkenntnis ist, dass die Verfügbarkeit von Projektwissen für das Modell wichtiger ist als die Verwendung teurer Modelle.

Technische Details

Das Speichersystem heißt Stompy und basiert auf MCP/API/CLI, funktioniert mit Claude Code. Der Benchmark-Aufbau ist auf GitHub verfügbar, damit andere ihn nutzen oder verbessern können. Der Entwickler merkt an, dass dies bisher n=1 pro Bedingung ist, weitere Durchläufe sind geplant.

📖 Read the full source: r/ClaudeAI

Ad

👀 Siehe auch

Arena KI-Modell ELO-Verlauf verfolgt LLM-Leistungsverfall über Zeit
Werkzeuge

Arena KI-Modell ELO-Verlauf verfolgt LLM-Leistungsverfall über Zeit

Ein Live-Dashboard visualisiert ELO-Bewertungen der Flaggschiff-Modelle großer KI-Labors und zeigt eine allmähliche Leistungsverschlechterung sowie plötzliche Sprünge bei neuen Veröffentlichungen. Das Tool zeichnet dynamisch eine Kurve pro Labor und verfolgt das am höchsten bewertete Modell.

OpenClawRadar
Claude Code Remote Control: Lokale Sitzungen von jedem Gerät aus fortsetzen
Werkzeuge

Claude Code Remote Control: Lokale Sitzungen von jedem Gerät aus fortsetzen

Claude Code Remote Control ermöglicht es Ihnen, lokale Claude Code-Sitzungen von anderen Geräten wie Telefonen oder Browsern aus fortzusetzen, während alles auf Ihrem Computer weiterläuft. Es ist als Forschungsvorschau auf Pro- und Max-Plänen verfügbar und erfordert Authentifizierung und die Einrichtung von Workspace-Vertrauen.

OpenClawRadar
Benchmarking von Nemotron 3 Super 120B mit 1M Token-Kontext auf M1 Ultra
Werkzeuge

Benchmarking von Nemotron 3 Super 120B mit 1M Token-Kontext auf M1 Ultra

Ein Nutzer testete Nemotron 3 Super 120B mit einem Q4_K_M quantisierten Modell unter Verwendung von llama.cpp auf einem M1 Ultra und erreichte ein Kontextfenster von 1 Million Token, das etwa 90 GB VRAM verbrauchte. Leistungsbenchmarks zeigen Token-Generierungsgeschwindigkeiten von 255 t/s bei 512 Token Prompt-Verarbeitung bis hinab zu 22,37 t/s bei einem Kontext von 100.000 Token.

OpenClawRadar
ClawedBack: OpenClaw-Port läuft innerhalb von Claude Code
Werkzeuge

ClawedBack: OpenClaw-Port läuft innerhalb von Claude Code

ClawedBack ist eine Clean-Room-Portierung von OpenClaw, die innerhalb von Claude Code läuft und First-Party-Prompt-Caching sowie Ratenbegrenzungen bietet. Es entspricht 19 von 23 der integrierten Tools von OpenClaw und ist vollständig ClawHub-kompatibel mit obligatorischen Sicherheitsscans für Importe.

OpenClawRadar