MCP-Server Token-Verschwendung vermeiden: Routing-Schicht reduziert Kosten

Ein Beitrag auf r/ClaudeAI berichtet von einem subtilen, aber kostspieligen Problem: Wenn mehrere MCP-Server konfiguriert sind, lädt jeder Prompt standardmäßig alle von ihnen, selbst bei trivialen Anfragen. Der Benutzer hatte 5–6 Server und bemerkte es erst, als er die Token-Nutzung überprüfte – Prompts verbrannten jedes Mal Token für das Laden irrelevanter Serverdefinitionen.

Wichtige Details

Jeder Prompt lud den vollständigen Satz an MCP-Servern (5–6 Server).
Selbst einfache Prompts (z.B. „Wie spät ist es?") lösten alle Serverdefinitionen aus.
Lösung: eine benutzerdefinierte Routing-Schicht, die nur die für den Prompt relevanten Server auswählt.
Ergebnis: Der Token-Verbrauch sank erheblich, und die Antwortzeiten der Prompts verbesserten sich.
Der OP gab zu: „Ich kann nicht glauben, dass ich das so lange laufen ließ, ohne es zu überprüfen."

Technischer Kontext

MCP (Model Context Protocol) Server sind Werkzeuge, die Claudias Fähigkeiten erweitern (z.B. Dateisystemzugriff, Datenbankabfragen, Web Scraping). Das Standardverhalten in vielen Setups – einschließlich geforkter Clients und manueller Konfigurationen – besteht darin, die gesamte Liste der Serverdefinitionen mit jeder Nachricht zu senden. Das bedeutet, dass Werkzeuge für DB-Zugriff, Datei-I/O, Webbrowsing usw. alle in den Kontextfenster geladen werden, bevor die eigentliche Benutzereingabe verarbeitet wird.

Eine Routing-Schicht kann die Nachricht des Benutzers (oder den System-Prompt) überprüfen und nur die MCP-Server bedingt einbeziehen, deren Beschreibungen oder Werkzeuge zur Absicht passen. Beispielsweise würde ein Prompt, der einen Dateipfad erwähnt, Dateiwerkzeuge aktivieren; eine Frage zu Aktienkursen würde nur den Finanzserver laden. Dies vermeidet den Token-Overhead irrelevanter Server-Metadaten.

Für wen das relevant ist

Entwickler, die Claude mit mehreren MCP-Servern betreiben, insbesondere in automatisierten Pipelines oder benutzerdefinierten Frontends, bei denen Token-Effizienz zählt.

📖 Vollständige Quelle lesen: r/ClaudeAI

Jeden MCP-Server bei jeder Eingabeaufforderung zu laden, zerstört leise das Token-Budget

Wichtige Details

Technischer Kontext

Für wen das relevant ist

👀 Siehe auch

Reddit-Benutzer teilt Prompt-Struktur, um Code-Ausgabe-Drift von Claude bei komplexen Aufgaben zu reduzieren

Claude-Nutzer berichten von schnelleren Sitzungen, indem sie Markdown anstelle von Word-Dokumenten anfordern.

Acht Prompting-Techniken, die die Ausgabequalität von Claude verbessern

OpenClaw-Absturzschleife-Debugging: Eine 5-Punkte-Checkliste