Pipeline IA hybride : Claude + Qwen2.5-Coder coupe 85% des tokens

Un flux de travail hybride d'IA pour le codage réduit les coûts cloud

Un développeur sur r/LocalLLaMA a partagé un flux de travail détaillé qui combine des modèles d'IA cloud et locaux pour réduire les coûts en tokens tout en maintenant la qualité du code. Cette approche répond à la prise de conscience que de nombreuses tâches de codage ne nécessitent pas de modèles cloud coûteux.

L'architecture du flux de travail

Le système suit une logique « Raisonner dans le cloud, Exécuter localement » :

Planificateur (Claude 3.5 Sonnet) : Reçoit la tâche et génère un fichier task_context.md précis contenant les instructions, les chemins de fichiers et la logique. Cela coûte environ 300 à 500 tokens.
Codeur (Qwen2.5-Coder 30B local via Ollama) : Prend la spécification et le contenu réel des fichiers pour écrire le code. Cela s'exécute localement sans aucun coût.
Validateur : Un simple script Bash exécute tsc --noEmit ou mypy pour la vérification des types.
Réviseur (Qwen2.5-Coder 7B local) : Fonctionne en parallèle pour vérifier les défauts de logique évidents.
Correction automatique : Si la compilation échoue, le journal d'erreurs est renvoyé au codeur local pour 2 à 3 itérations.

Détails de mise en œuvre

L'ensemble du pipeline est intégré dans un ensemble de scripts Bash utilisant uniquement jq et curl pour communiquer avec l'API Ollama. Le système détecte automatiquement les standards de langage (TypeScript, Python, C++, etc.) en fonction de la sortie du planificateur et ne nécessite pas d'environnements d'exécution Python/Node lourds.

Le développeur note que les modèles locaux (même ceux de 30B) échouent souvent dans le raisonnement architectural complexe, mais sont étonnamment bons pour l'exécution lorsqu'ils reçoivent des spécifications extrêmement claires.

Résultats et économies

Sur un projet TypeScript récent impliquant la modification de 12 fichiers :

L'utilisation de Claude a été limitée à la phase de planification initiale uniquement
Les modèles locaux ont géré tout le reste : écriture des 12 fichiers, linting et révision
Économies totales : réduction d'environ 85 % des tokens par rapport à tout faire dans l'interface CLI de Claude Code

Le développeur a rendu les scripts disponibles dans un dépôt nommé ai-orchestrator sur GitHub (nom d'utilisateur : Mybono) pour ceux qui s'intéressent aux détails de mise en œuvre.

📖 Read the full source: r/LocalLLaMA