MCP Stack Benchmark: Prompt-Cache mit 2 Zeilen Code fixen

Bei der Optimierung eines Claude Code MCP-Stacks konzentriert man sich leicht auf eine einzige Metrik: Byte-Einsparungen. Aber Greg Shevchenkos neue Analyse zeigt, dass ein eindimensionaler Benchmark ein System empfehlen kann, das in der Produktion streng schlechter abschneidet. Die fehlende Achse: Cache-Freundlichkeit, d. h., ob dieselbe Eingabe über mehrere Durchläufe hinweg byteidentische Ausgaben erzeugt, sodass Anthropics Prompt-Cache trifft.

Shevchenkos größter Byte-Sparer – ein Retrieval-MCP, das den Kontext um 60–70 % reduzierte – hat tatsächlich den 5-Minuten-TTL-Prompt-Cache bei jedem Aufruf ausgehebelt. Zwei Durchläufe derselben Abfrage erzeugten unterschiedliche Bytes, weil die Ausgabereihenfolge von rg --files-with-matches durch eine Map-Einfügungssequenz in den endgültigen Kontext durchsickerte. Der Fix bestand aus zwei Zeilen: Sortieren der rg-Treffer vor dem Kürzen und Sortieren der Map-Einträge nach Pfad. Nach der Änderung blieben die Byte-Einsparungen unverändert, aber cache_friendly_score stieg von ~0 % auf 100 %.

Was der Harness misst

Shevchenko veröffentlichte einen Open-Source-Benchmark-Harness (nur Standardbibliothek Python, offline), der Folgendes misst:

Mittleres Verhältnis + CV über N≥5 Durchläufe pro Fixture → Byte-Einsparungsachse
Prüfung auf eindeutige MD5-Anzahl == 1 → Cache-Freundlichkeitsachse (0–100 %)
12-Anti-Pattern-Audit für Tool-Definitionen (DSA-Referenz)

Jeder Kompressor als (str) -> str kann eingesteckt werden. Der Harness verwendet Cluster-Bootstrap-KIs, Wilson-KIs, Vorregistrierung und Cohen's κ mit echten Daten.

Übersicht öffentlicher Alternativen

Shevchenko untersuchte öffentliche Dokumentationen zu: Cursor Codebase Index, Sourcegraph Cody, Aider Repo-Map, Microsoft LLMLingua/LLMLingua-2, Firecrawl/Jina Reader, RouteLLM/Martian (Stand Mai 2026). Keine offenbarte Cache-Freundlichkeitsmetriken.

Einschränkungen

Er vermutete, dass die Vorbereitungsschicht nachfolgende Cache-Treffer bei nachfolgenden Runden auslöst, aber es wurde keine Signifikanz erreicht (Welch p=0,32, Cohen's d≈0,18, N=137). Cohen's κ zwischen zwei Gutachtern lag bei 0,5955 (mäßig, unter dem Schwellenwert von 0,7), wobei 4 von 5 Meinungsverschiedenheiten auf eine einzelne mehrdeutige Aufgabe entfielen – ein Fix der Spezifikation würde κ auf ~0,83 heben.

Der Harness steht unter der MIT-Lizenz. Wenn Sie einen Claude Code MCP-Stack betreiben, ist die Messung von cache_friendly_score jetzt ein konkretes, umsetzbares Ziel.

📖 Vollständige Quelle lesen: r/ClaudeAI

Messung des Claude Code MCP-Stacks: Cache-Freundlichkeit vs. Byte-Ersparnis und eine 2-Zeilen-Korrektur für den Prompt-Cache

Was der Harness misst

Übersicht öffentlicher Alternativen

Einschränkungen

👀 Siehe auch

Datenanalyst baut Prompt-Kalibrierungstool mit Claude, ohne Vorerfahrung im Frontend

Engram v1.0.0: Persistenter Speicher für lokale LLMs über ein Wissensnetz

SwarmClaw Dashboard fügt OpenClaw eine Orchestrierungsebene hinzu

KI-Framework für Teammitglieder in Slack, vollständig über Claude Code betrieben