Développeur partage son flux de travail hybride en codage IA : Claude pour la planification, modèles locaux pour l'exécution

Un flux de travail hybride d'IA pour le codage réduit les coûts cloud
Un développeur sur r/LocalLLaMA a partagé un flux de travail détaillé qui combine des modèles d'IA cloud et locaux pour réduire les coûts en tokens tout en maintenant la qualité du code. Cette approche répond à la prise de conscience que de nombreuses tâches de codage ne nécessitent pas de modèles cloud coûteux.
L'architecture du flux de travail
Le système suit une logique « Raisonner dans le cloud, Exécuter localement » :
- Planificateur (Claude 3.5 Sonnet) : Reçoit la tâche et génère un fichier
task_context.mdprécis contenant les instructions, les chemins de fichiers et la logique. Cela coûte environ 300 à 500 tokens. - Codeur (Qwen2.5-Coder 30B local via Ollama) : Prend la spécification et le contenu réel des fichiers pour écrire le code. Cela s'exécute localement sans aucun coût.
- Validateur : Un simple script Bash exécute
tsc --noEmitoumypypour la vérification des types. - Réviseur (Qwen2.5-Coder 7B local) : Fonctionne en parallèle pour vérifier les défauts de logique évidents.
- Correction automatique : Si la compilation échoue, le journal d'erreurs est renvoyé au codeur local pour 2 à 3 itérations.
Détails de mise en œuvre
L'ensemble du pipeline est intégré dans un ensemble de scripts Bash utilisant uniquement jq et curl pour communiquer avec l'API Ollama. Le système détecte automatiquement les standards de langage (TypeScript, Python, C++, etc.) en fonction de la sortie du planificateur et ne nécessite pas d'environnements d'exécution Python/Node lourds.
Le développeur note que les modèles locaux (même ceux de 30B) échouent souvent dans le raisonnement architectural complexe, mais sont étonnamment bons pour l'exécution lorsqu'ils reçoivent des spécifications extrêmement claires.
Résultats et économies
Sur un projet TypeScript récent impliquant la modification de 12 fichiers :
- L'utilisation de Claude a été limitée à la phase de planification initiale uniquement
- Les modèles locaux ont géré tout le reste : écriture des 12 fichiers, linting et révision
- Économies totales : réduction d'environ 85 % des tokens par rapport à tout faire dans l'interface CLI de Claude Code
Le développeur a rendu les scripts disponibles dans un dépôt nommé ai-orchestrator sur GitHub (nom d'utilisateur : Mybono) pour ceux qui s'intéressent aux détails de mise en œuvre.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Claude 4.6 Opus raisonnement distillé à 14 Go pour Apple Silicon via la quantification MLX
Un développeur a quantifié un modèle Qwen 3.5 27B distillé à partir des trajectoires de raisonnement de Claude 4.6 Opus, réduisant sa taille de 55,6 Go à 14 Go en utilisant MLX pour Apple Silicon, atteignant environ 16 tokens/seconde sur un M4 Pro tout en conservant les capacités de raisonnement analytique du modèle.

agent-recall : MCP SQLite local pour une mémoire de code Claude persistante
agent-recall est un serveur MCP qui donne à Claude Code une mémoire persistante entre les sessions en utilisant un fichier SQLite local. Il fournit 9 outils MCP pour sauvegarder des entités, des relations et des observations, avec des résumés générés par IA au début de chaque session au lieu de déversements de données brutes.

Ssemble MCP Server Permet à Claude de Générer des Vidéos Courtes à Partir de YouTube
Un nouveau serveur MCP pour Ssemble AI Clipping permet à Claude de créer des vidéos de style TikTok/Reels/Shorts à partir d'URL YouTube avec des clips générés par IA, des modèles de sous-titres, des pistes musicales et des superpositions. La configuration implique d'ajouter des paramètres à Claude Desktop ou d'utiliser un point de terminaison hébergé.

Présentation de Lean Collab : Un Orchestrateur Multi-Agents pour les Tâches LLM de Longue Durée
Lean Collab est un orchestrateur open-source conçu pour gérer des tâches LLM de longue durée en utilisant des sous-agents coordonnés et parallèles.