Claude Code délègue le codage à Mistral/DeepSeek : 57M tokens économisés, réduction des coûts de 90 à 100%

Le développeur pcx_wave a publié une analyse détaillée de vibe-skill, une compétence Claude Code qui délègue les tâches de codage à des modèles moins chers (Mistral ou DeepSeek) tout en utilisant Claude pour la planification et la relecture. Après 10 jours et 254 exécutions, ils ont économisé 57 millions de tokens et réduit les coûts de 90 à 100 % tout en maintenant la qualité de sortie de Claude.
Comment ça marche
Vibe-skill s'exécute dans Claude Code. Vous tapez /vibeon <whatever>, Claude décompose la tâche et délègue le codage réel à un modèle léger (via l'outil open-source Vibe). Claude examine ensuite le diff et corrige les échecs. Le modèle bon marché brûle les tokens ; Claude ne dépense des tokens que pour la planification et la relecture.
Résultats par modèle
| Modèle | Tokens délégués | Coût réel | Équivalent Claude | Économies |
|---|---|---|---|---|
| DeepSeek V4 Flash | 29M | 4,13 $ | 92,16 $ | 95 % |
| Mistral Medium 3.5 | 28M | 0 $ (abonnement Pro) | 84,77 $ | 100 % |
Taux de réussite global : 98 % sur 254 exécutions. En cas d'échec de la délégation, Claude rattrape et corrige la sortie.
Économie de tokens
Les tokens Mistral sont environ 50 % moins chers que ceux de Claude ; les tokens DeepSeek sont 95 % moins chers. L'auteur utilise un abonnement Mistral Pro (18,36 $/mois) qui inclut environ 1 milliard de tokens gratuits. Pour les abonnés Mistral Pro, la délégation coûte 0 $ jusqu'à épuisement du quota, après quoi le système bascule automatiquement sur DeepSeek (car le paiement à l'utilisation Mistral à 1,52 $/M tokens est 10 fois plus cher que DeepSeek).
Le point d'équilibre : DeepSeek seul est moins cher que l'abonnement Mistral Pro si vous déléguerez moins de 131M tokens/mois (18,36 $ / 0,14 $ par M). Au-dessus de ce volume, Mistral Pro l'emporte avec une marge de manœuvre environ 10 fois plus grande avant d'atteindre le quota.
Configuration
La compétence est open-source sur github.com/pcx-wave/vibe-skill. Une compétence Gemini similaire est également disponible mais moins configurable et instable. Pour l'utiliser, clonez le dépôt et chargez la compétence dans Claude Code — puis tapez simplement /vibeon votre tâche.
📖 Lire la source complète : r/ClaudeAI
👀 See Also

LLMock : Serveur de simulation basé sur HTTP pour des tests déterministes de LLM entre processus
LLMock est un serveur HTTP réel qui simule les API OpenAI, Claude et Gemini, permettant aux développeurs d'exécuter des tests déterministes sur plusieurs processus sans solliciter les véritables API. Il prend en charge le streaming SSE, les appels d'outils, le routage par prédicat et la journalisation des requêtes sans aucune dépendance.

L'application de bureau Claude permet la collaboration entre IA via des documents Google partagés
Les utilisateurs ont réussi à mettre en place une communication de Claude à Claude en utilisant la nouvelle fonction de collaboration dans l'application de bureau, avec deux agents lisant et écrivant dans un Google Doc partagé. Le test a impliqué cinq tours de dialogue questions-réponses entre les agents d'IA.

Benchmarks de Performance des LLM Locaux sur Mac Mini avec OpenClaw et LM Studio
Un utilisateur de Reddit a publié des chiffres de performance pour l'exécution locale du modèle Unsloth gpt-oss-20b-Q4_K_S.gguf sur un Mac Mini avec 32 Go de RAM, atteignant 34 tokens/seconde avec un temps de 0,7 seconde pour le premier token en utilisant OpenClaw 2026.3.8 et LM Studio 0.4.6+1.

Extension VS Code d'IA locale bloque la génération de code non sécurisé lors des sauvegardes
Un développeur a créé une extension VS Code qui exécute llama3.1:8b-instruct-q4 localement pour intercepter les sauvegardes, cartographier les flux d'exécution source-à-puits et bloquer le code généré par IA non sécurisé, comme les vulnérabilités d'injection de logs CWE-117.