Analyse des coûts de DeepSeek V4 Flash : Taux de cache et rapport de prix expliqués

Un utilisateur de Reddit a analysé 922 traces de tâches agentiques exécutées sur OpenClaw (avec la boucle agent PI) et OpenRouter, comparant DeepSeek V4 Flash à Opus 4.7. La différence de coût est stupéfiante : 0,01 $ par tâche pour DeepSeek contre 1,52 $ pour Opus, malgré des nombres de tokens similaires (~962K en moyenne) et d'appels d'outils (~14 en moyenne). Le rapport de prix est de 0,0066x, bien en dessous des 0,03x attendus sur la seule base du prix des tokens d'entrée.
Pourquoi DeepSeek est moins cher : Taux de hit de cache et prix lecture/écriture
Deux facteurs expliquent cet écart :
- Taux de hit de cache : DeepSeek V4 Flash a atteint 97 % contre 87 % pour Opus 4.7. Avec ces rapports de prix lecture-écriture du cache, chaque augmentation de 1 % du taux de hit réduit le coût total d'environ 20 %. L'avantage de 10 % de DeepSeek réduit d'environ 2/3 le coût total.
- Rapport de prix lecture-écriture du cache : Le rapport de DeepSeek est de 0,02 (la lecture du cache coûte 2 % d'une écriture manquée), tandis que celui d'Opus est de 0,08 — comparable à OpenAI, Anthropic et Gemini (0,08–0,10). Cela réduit à lui seul le coût de moitié.
Comment cela s'additionne
Avec des tokens et des outils similaires par tâche, le coût total de DeepSeek est de 0,0066x celui d'Opus. L'utilisateur suppose que ces efficacités sont conçues au niveau de l'infrastructure ou de l'architecture du modèle (par exemple, une meilleure stratégie de mise en cache). Le mécanisme exact n'est pas divulgué.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Traduire en fr : Mises à jour de Claude Code v2.1.91 : Modèles de conception d'agent, règles de mémoire et améliorations des outils
Claude Code v2.1.91 ajoute un guide de référence pour les modèles de conception d'agents couvrant la conception de l'interface des outils, la gestion du contexte et les stratégies de mise en cache. La mise à jour simplifie les règles de sélection de la mémoire, ajoute une surveillance de sécurité contre l'empoisonnement de la mémoire et améliore les descriptions des outils Édition, LireFichier et Écrire.

Les ingénieurs chinois en IA sont les nouveaux acteurs influents de la Silicon Valley
Un journaliste infiltré dans une maison partagée à Los Altos explore la communauté des chercheurs chinois en IA dans la Silicon Valley, décrivant des packages de rémunération à 200 millions de dollars, leur éthique de travail intense et les soirées où ils réseautent.

OpenClaw 2026.4.2 et 2026.3.31 interrompent les connexions aux LLM locaux.
Les versions 2026.4.2 et 2026.3.31 d'OpenClaw provoquent des délais d'attente de connexion aux instances Ollama hébergées localement. Le problème survient lors de la connexion à des machines Ubuntu exécutées localement, avec des journaux d'erreur indiquant des délais d'attente de requêtes LLM et des décisions de basculement.

Anthropic abandonne un engagement clé en matière de sécurité dans sa politique de mise à l'échelle responsable
Anthropic a retiré l'engagement central de sa Politique de Mise à l'Échelle Responsable qui exigeait de garantir des mesures de sécurité adéquates avant l'entraînement des systèmes d'IA, invoquant la pression concurrentielle et la nécessité de poursuivre le développement.