DeepSeek V4 Flash : Prix et taux de cache expliqués

Un utilisateur de Reddit a analysé 922 traces de tâches agentiques exécutées sur OpenClaw (avec la boucle agent PI) et OpenRouter, comparant DeepSeek V4 Flash à Opus 4.7. La différence de coût est stupéfiante : 0,01 $ par tâche pour DeepSeek contre 1,52 $ pour Opus, malgré des nombres de tokens similaires (~962K en moyenne) et d'appels d'outils (~14 en moyenne). Le rapport de prix est de 0,0066x, bien en dessous des 0,03x attendus sur la seule base du prix des tokens d'entrée.

Pourquoi DeepSeek est moins cher : Taux de hit de cache et prix lecture/écriture

Deux facteurs expliquent cet écart :

Taux de hit de cache : DeepSeek V4 Flash a atteint 97 % contre 87 % pour Opus 4.7. Avec ces rapports de prix lecture-écriture du cache, chaque augmentation de 1 % du taux de hit réduit le coût total d'environ 20 %. L'avantage de 10 % de DeepSeek réduit d'environ 2/3 le coût total.
Rapport de prix lecture-écriture du cache : Le rapport de DeepSeek est de 0,02 (la lecture du cache coûte 2 % d'une écriture manquée), tandis que celui d'Opus est de 0,08 — comparable à OpenAI, Anthropic et Gemini (0,08–0,10). Cela réduit à lui seul le coût de moitié.

Comment cela s'additionne

Avec des tokens et des outils similaires par tâche, le coût total de DeepSeek est de 0,0066x celui d'Opus. L'utilisateur suppose que ces efficacités sont conçues au niveau de l'infrastructure ou de l'architecture du modèle (par exemple, une meilleure stratégie de mise en cache). Le mécanisme exact n'est pas divulgué.

📖 Lire la source complète : r/LocalLLaMA

Analyse des coûts de DeepSeek V4 Flash : Taux de cache et rapport de prix expliqués

Pourquoi DeepSeek est moins cher : Taux de hit de cache et prix lecture/écriture

Comment cela s'additionne

👀 See Also

Claude Code System Prompts v2.1.53-2.1.55 : Sélection de mémoire ajoutée, exécution de commande supprimée

Système d'animal de compagnie caché découvert dans la fuite du code Claude : mécaniques de gacha avec animations ASCII

Automatiser les médias sociaux avec OpenClaw : Possibilités et discussions

Efficacité des tokens Opus 4.7 : les prompts en allemand consomment jusqu'à 2x plus de tokens que l'anglais