Opus 4.7 Token-Effizienz: Deutsche Prompts verbrauchen bis zu 2x mehr Tokens als Englische

Claudes Tokenizer weist eine bekannte sprachliche Verzerrung auf, und ein aktueller Beitrag auf r/ClaudeAI zeigt die realen Auswirkungen der Verwendung von nicht-englischen Sprachen mit dem Opus 4.7-Modell.
Das Problem
Ein Pro-Abonnent führte eine Aktienanalyse-Prompt durch (Prognose für The Trade Desk, Coreweave, Cloudflare) zuerst auf Englisch, dann auf Deutsch. Ergebnisse:
- Englisch (Opus 4.7 Extended): verbrauchte 37% der Session-Tokens
- Englisch (Opus 4.6): 33%
- Englisch (Sonnet): ~28%
- Deutsch (Opus 4.7): 100% in Sekunden
Der gleiche Prompt auf Deutsch mit demselben Modell erschöpfte das gesamte Session-Limit fast sofort.
Warum das passiert
Claude tokenisiert Text. Im Englischen entspricht ein Token durchschnittlich etwa 0,75 Wörtern; im Deutschen sind es etwa 0,5 Wörter pro Token – manchmal noch weniger. Zusammengesetzte Substantive wie Aktienmarktanalyse werden in mehr Tokens zerlegt als stock market analysis, und Umlaute sowie eine geringere Abdeckung der Trainingsdaten erhöhen die Tokenanzahl. Für den gleichen semantischen Inhalt kann ein deutscher Prompt plus Antwort 1,5- bis 2-mal so viele Tokens verbrauchen wie Englisch.
Workarounds
Das Modell selbst schlägt zwei Abhilfen vor:
- Auf Deutsch prompten, aber Antworten auf Englisch anfordern – z.B. bleiben Tabellenbeschriftungen auf Englisch, während die Konversation auf Deutsch geführt wird
- Das Modell bitten, knapper zu antworten, um die Anzahl der ausgegebenen Tokens zu reduzieren
Anthropic ist sich des mehrsprachigen Token-Kostenproblems bewusst, aber es handelt sich um eine strukturelle Eigenschaft des Tokenizers – die nicht clientseitig gepatcht werden kann.
Fazit
Wenn Sie Claude in einer anderen Sprache als Englisch verwenden und auf Session-Limits stoßen, liegt dies wahrscheinlich daran. Für rechenintensive Workflows (Tool-Aufrufe, Websuchen, lange Ausgaben) sollten Sie in Erwägung ziehen, für die Ausgabe auf Englisch umzuschalten, um Tokens zu sparen.
📖 Lesen Sie die vollständige Quelle: r/ClaudeAI
👀 Siehe auch

Warum OpenClaw nicht reagiert: Nutzer äußern Bedenken
OpenClaw-Nutzer haben Probleme mit nicht reaktionsschnellen KI-Coding-Agenten. Die Diskussion auf Reddit beleuchtet mögliche Ursachen und Nutzerfeedback.

Claude Prompt Cache-Diagnose: Statistik-Thread zeigt 98,9 % Cache-Lesequote
Vor zwei Tagen veröffentlichte Claude Prompt-Cache-Diagnosen in der Console. Ein Entwickler berichtet von einer Cache-Lesequote von 98,9 %, wobei 80 % der Fehlversuche auf geänderte Nachrichten zurückzuführen sind.

Nano-Native-Marktplatz ebnet den Weg für die Zusammenarbeit autonomer Agenten mit NanoBazaar.
NanoBazaar, der neue nano-native Marktplatz, revolutioniert die Zusammenarbeit zwischen Agenten, indem er KI-Codierungsagenten ermöglicht, autonom und effizient zu kooperieren. Entdecken Sie, wie diese innovative Plattform maschinengetriebene Transaktionen ermöglicht.

Benchmark zeigt, dass kleinere 4B-Modelle größere LLMs für Telefon-zu-Haus-Chatanwendungen übertreffen
Ein Benchmark von 8 lokalen LLMs für Telefon-zu-Heim-Chat-Anwendungen ergab, dass Gemma3:4B mit einer zusammengesetzten Fitnesspunktzahl von 88,7 gewann, obwohl es das kleinste Modell war. Es übertraf größere Modelle mit bis zu 24B Parametern aufgrund schnellerer Antwortzeiten und geringerer thermischer Belastung.