Réduisez 60x les coûts Claude avec DeepSeek V4 Flash via MCP

Un utilisateur de Reddit a analysé son utilisation de Claude et a constaté que la majeure partie était consacrée à des tâches mécaniques : classer des fichiers, reformater du JSON, extraire des champs de texte et résumer des documents qu'il parcourait de toute façon. Rien de tout cela ne nécessitait Sonnet. La solution : un petit modèle peu coûteux fonctionnant comme un travailleur secondaire via MCP, plus une règle unique dans CLAUDE.md indiquant à Claude de ne pas effectuer ces tâches.

Configuration : un outil MCP + une liste noire dans CLAUDE.md

La configuration utilise un seul outil MCP qui envoie du texte et reçoit du texte. Le modèle par défaut est DeepSeek V4 Flash (peu coûteux, contexte de 1M). Le point de terminaison est une ligne de configuration et fonctionne avec n'importe quel fournisseur compatible OpenAI (ollama local, vllm, lm studio). Le dépôt est github.com/arizen-dev/deepseek-mcp (MIT, Python 3.10+).

L'élément crucial : la règle CLAUDE.md utilise un cadrage négatif — une liste noire, pas une liste d'autorisations. L'utilisateur signale qu'un cadrage positif (« utilise DeepSeek pour X ») était ignoré environ 30 % du temps. L'approche par liste noire fonctionne de manière fiable.

# Dans CLAUDE.md :
# N'utilise PAS Claude pour :
# - le formatage JSON
# - l'extraction de champs
# - la classification de fichiers
# - la synthèse que tu consulteras de toute façon

Résultats : réduction des coûts par 60

Sur 3 semaines d'utilisation réelle : 217 appels mécaniques délégués à DeepSeek V4 Flash, dépense totale de 0,41 $. La même charge de travail sur Sonnet aurait coûté environ 7 $. Cela représente un facteur multiplicateur d'environ 17 pour ces seules tâches, et l'utilisateur indique que la facture globale a chuté de 60 fois en tenant compte des tâches plus lourdes toujours confiées à Sonnet.

Comment fonctionne le travailleur secondaire

Le travailleur secondaire est un outil supervisé, pas un agent — pas d'appels d'outils, pas d'accès aux fichiers, pas de chaînes. La latence est de 3 à 25 secondes. Vous relisez la sortie. L'ensemble du processus consiste à envoyer du texte, recevoir du texte, relire, passer à la suite.

À qui cela s'adresse

Développeurs utilisant l'API Claude ou Claude Code qui souhaitent réduire les dépenses liées aux tâches mécaniques à volume élevé sans perdre la capacité de raisonnement de Sonnet pour les travaux complexes.

📖 Lire la source complète : r/ClaudeAI