Réduisez les coûts de Claude de 60x en déléguant les tâches mécaniques à DeepSeek V4 Flash via MCP

✍️ OpenClawRadar📅 Publié: May 4, 2026🔗 Source
Réduisez les coûts de Claude de 60x en déléguant les tâches mécaniques à DeepSeek V4 Flash via MCP
Ad

Un utilisateur de Reddit a analysé son utilisation de Claude et a constaté que la majeure partie était consacrée à des tâches mécaniques : classer des fichiers, reformater du JSON, extraire des champs de texte et résumer des documents qu'il parcourait de toute façon. Rien de tout cela ne nécessitait Sonnet. La solution : un petit modèle peu coûteux fonctionnant comme un travailleur secondaire via MCP, plus une règle unique dans CLAUDE.md indiquant à Claude de ne pas effectuer ces tâches.

Configuration : un outil MCP + une liste noire dans CLAUDE.md

La configuration utilise un seul outil MCP qui envoie du texte et reçoit du texte. Le modèle par défaut est DeepSeek V4 Flash (peu coûteux, contexte de 1M). Le point de terminaison est une ligne de configuration et fonctionne avec n'importe quel fournisseur compatible OpenAI (ollama local, vllm, lm studio). Le dépôt est github.com/arizen-dev/deepseek-mcp (MIT, Python 3.10+).

L'élément crucial : la règle CLAUDE.md utilise un cadrage négatif — une liste noire, pas une liste d'autorisations. L'utilisateur signale qu'un cadrage positif (« utilise DeepSeek pour X ») était ignoré environ 30 % du temps. L'approche par liste noire fonctionne de manière fiable.

# Dans CLAUDE.md :
# N'utilise PAS Claude pour :
# - le formatage JSON
# - l'extraction de champs
# - la classification de fichiers
# - la synthèse que tu consulteras de toute façon
Ad

Résultats : réduction des coûts par 60

Sur 3 semaines d'utilisation réelle : 217 appels mécaniques délégués à DeepSeek V4 Flash, dépense totale de 0,41 $. La même charge de travail sur Sonnet aurait coûté environ 7 $. Cela représente un facteur multiplicateur d'environ 17 pour ces seules tâches, et l'utilisateur indique que la facture globale a chuté de 60 fois en tenant compte des tâches plus lourdes toujours confiées à Sonnet.

Comment fonctionne le travailleur secondaire

Le travailleur secondaire est un outil supervisé, pas un agent — pas d'appels d'outils, pas d'accès aux fichiers, pas de chaînes. La latence est de 3 à 25 secondes. Vous relisez la sortie. L'ensemble du processus consiste à envoyer du texte, recevoir du texte, relire, passer à la suite.

À qui cela s'adresse

Développeurs utilisant l'API Claude ou Claude Code qui souhaitent réduire les dépenses liées aux tâches mécaniques à volume élevé sans perdre la capacité de raisonnement de Sonnet pour les travaux complexes.

📖 Lire la source complète : r/ClaudeAI

Ad

👀 See Also

Analyse des modèles d'ingénierie de production de Claude Code à partir du code source rétro-ingéniéré
Guides

Analyse des modèles d'ingénierie de production de Claude Code à partir du code source rétro-ingéniéré

Un développeur a rétro-conçu environ 500 000 lignes du code source TypeScript de Claude Code pour en faire un manuel technique de 19 chapitres documentant les modèles d'ingénierie de production qui émergent sous une charge réelle, avec de l'argent réel et face à des adversaires réels.

OpenClawRadar
Passerelle OpenClaw gratuite avec LLM local sur Oracle Cloud
Guides

Passerelle OpenClaw gratuite avec LLM local sur Oracle Cloud

Un développeur explique comment exécuter OpenClaw Gateway avec un LLM local Qwen3.5 27B A3B 4 bits sur le niveau gratuit d'Oracle Cloud en utilisant une instance VM.Standard.A2.Flex avec 4 OCPU, 24 Go de RAM et 200 Go de SSD, gérée à distance via l'application QCAI.

OpenClawRadar
Utiliser l'IA comme partenaire cognitif plutôt que comme usine à code
Guides

Utiliser l'IA comme partenaire cognitif plutôt que comme usine à code

Un post sur Reddit propose un prompt système appelé 'Cognitive Authorship Copilot' qui force l'IA à agir comme un partenaire de programmation en binôme plutôt que comme un générateur de solutions autonome, avec trois niveaux d'intervention basés sur la complexité de la tâche.

OpenClawRadar
Déboguer les Timeouts du Modèle Local OpenClaw + Ollama : Cinq Correctifs pour les Pannes Silencieuses
Guides

Déboguer les Timeouts du Modèle Local OpenClaw + Ollama : Cinq Correctifs pour les Pannes Silencieuses

Un développeur a identifié cinq causes profondes expliquant pourquoi les agents OpenClaw expirent silencieusement avec des modèles Ollama locaux comme Gemma 4 26B, notamment un générateur de slug bloquant, un prompt système de 38 000 caractères et des délais d'attente cachés. Les correctifs impliquent de désactiver des hooks, de modifier des configurations et d'ajuster les paramètres Ollama.

OpenClawRadar