DeepSeek V4 Flash Kostenaufschlüsselung: Cache-Trefferquote und Preisverhältnis erklärt

Ein Reddit-Nutzer analysierte 922 agentische Aufgabenabläufe, die auf OpenClaw (mit PI-Agenten-Schleife) und OpenRouter ausgeführt wurden, und verglich DeepSeek V4 Flash mit Opus 4.7. Der Kostenunterschied ist enorm: 0,01 $ pro Aufgabe für DeepSeek gegenüber 1,52 $ für Opus, trotz ähnlicher Token-Anzahl (~962k Durchschnitt) und Tool-Aufrufen (~14 Durchschnitt). Das Preisverhältnis beträgt 0,0066x, weit unter den erwarteten 0,03x basierend allein auf den Preisen für Eingabe-Token.
Warum DeepSeek günstiger ist: Cache-Trefferquote und Lese-/Schreibpreis
Zwei Faktoren erklären die Diskrepanz:
- Cache-Trefferquote: DeepSeek V4 Flash erreichte 97% gegenüber 87% bei Opus 4.7. Bei diesen Cache-Lese-/Schreib-Preisverhältnissen führt jeder Prozentpunkt höherer Cache-Treffer zu etwa 20% geringeren Gesamtkosten. DeepSeeks 10% Vorsprung senken die Gesamtkosten um etwa zwei Drittel.
- Cache-Lese-/Schreib-Preisverhältnis: DeepSeeks Verhältnis beträgt 0,02 (ein Cache-Lesevorgang kostet 2% eines Cache-Fehlschreibvorgangs), während Opus bei 0,08 liegt – vergleichbar mit OpenAI, Anthropic und Gemini (0,08–0,10). Dies allein halbiert die Kosten weiter.
Wie sich das summiert
Bei ähnlichen Token- und Tool-Anzahlen pro Aufgabe betragen DeepSeeks Gesamtkosten das 0,0066-fache von Opus. Der Nutzer vermutet, dass diese Effizienzgewinne auf Infrastruktur- oder Modellebene (z. B. bessere Caching-Strategie) erzielt werden. Der genaue Mechanismus wird nicht offengelegt.
📖 Lies die vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

Oracle erwägt 20.000 bis 30.000 Stellenstreichungen und den Verkauf von Cerner, um die KI-Rechenzentrumserweiterung zu finanzieren.
Oracle erwägt, 20.000 bis 30.000 Stellen zu streichen und seine Cerner-Gesundheitssoftware-Einheit zu verkaufen, um 8 bis 10 Milliarden Dollar Cashflow für die Erweiterung von KI-Rechenzentren freizusetzen, da US-Banken sich aus der Finanzierung des 156-Milliarden-Dollar-Infrastrukturausbaus des Unternehmens zurückziehen.

RTX 4090 vs H100 für das Feinabstimmen von Llama-3-8B: Ein Kosten-Leistungs-Vergleich
Ein Entwickler testete das Feinabstimmen von Llama-3-8B sowohl auf einer RTX 4090 als auch auf gemieteten H100-Instanzen. Das 4090-Setup kostete 2.000 US-Dollar im Voraus und dauerte 24 Stunden, während die H100-Miete etwa 80 US-Dollar kostete und in 4 Stunden abgeschlossen war.

Lovable bietet 100 US-Dollar kostenlose Claude-API-Guthaben zum Internationalen Frauentag an.
Lovable verschenkt 100 US-Dollar in Anthropic Claude API-Guthaben, 250 US-Dollar in Stripe-Gebühren-Guthaben und 24-stündigen kostenlosen Zugang zu ihrer Plattform bis zum 8. März. Nutzer müssen das Angebot vor 12:59 Uhr ET am 9. März einlösen.

Claude Code v2.1.145: JSON-Agenten-Auflistung, OTEL-Span-Fixes, Sicherheitspatch und mehr
Claude Code v2.1.145 fügt `claude agents --json` für Skripting hinzu, behebt eine Sicherheitslücke bei Berechtigungsaufforderungen, verbessert OTEL-Spans und mehr.