Développeur partage son flux de travail hybride en codage IA : Claude pour la planification, modèles locaux pour l'exécution

✍️ OpenClawRadar📅 Publié: April 16, 2026🔗 Source
Développeur partage son flux de travail hybride en codage IA : Claude pour la planification, modèles locaux pour l'exécution
Ad

Un flux de travail hybride d'IA pour le codage réduit les coûts cloud

Un développeur sur r/LocalLLaMA a partagé un flux de travail détaillé qui combine des modèles d'IA cloud et locaux pour réduire les coûts en tokens tout en maintenant la qualité du code. Cette approche répond à la prise de conscience que de nombreuses tâches de codage ne nécessitent pas de modèles cloud coûteux.

L'architecture du flux de travail

Le système suit une logique « Raisonner dans le cloud, Exécuter localement » :

  • Planificateur (Claude 3.5 Sonnet) : Reçoit la tâche et génère un fichier task_context.md précis contenant les instructions, les chemins de fichiers et la logique. Cela coûte environ 300 à 500 tokens.
  • Codeur (Qwen2.5-Coder 30B local via Ollama) : Prend la spécification et le contenu réel des fichiers pour écrire le code. Cela s'exécute localement sans aucun coût.
  • Validateur : Un simple script Bash exécute tsc --noEmit ou mypy pour la vérification des types.
  • Réviseur (Qwen2.5-Coder 7B local) : Fonctionne en parallèle pour vérifier les défauts de logique évidents.
  • Correction automatique : Si la compilation échoue, le journal d'erreurs est renvoyé au codeur local pour 2 à 3 itérations.
Ad

Détails de mise en œuvre

L'ensemble du pipeline est intégré dans un ensemble de scripts Bash utilisant uniquement jq et curl pour communiquer avec l'API Ollama. Le système détecte automatiquement les standards de langage (TypeScript, Python, C++, etc.) en fonction de la sortie du planificateur et ne nécessite pas d'environnements d'exécution Python/Node lourds.

Le développeur note que les modèles locaux (même ceux de 30B) échouent souvent dans le raisonnement architectural complexe, mais sont étonnamment bons pour l'exécution lorsqu'ils reçoivent des spécifications extrêmement claires.

Résultats et économies

Sur un projet TypeScript récent impliquant la modification de 12 fichiers :

  • L'utilisation de Claude a été limitée à la phase de planification initiale uniquement
  • Les modèles locaux ont géré tout le reste : écriture des 12 fichiers, linting et révision
  • Économies totales : réduction d'environ 85 % des tokens par rapport à tout faire dans l'interface CLI de Claude Code

Le développeur a rendu les scripts disponibles dans un dépôt nommé ai-orchestrator sur GitHub (nom d'utilisateur : Mybono) pour ceux qui s'intéressent aux détails de mise en œuvre.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Claude 4.6 Opus raisonnement distillé à 14 Go pour Apple Silicon via la quantification MLX
Tools

Claude 4.6 Opus raisonnement distillé à 14 Go pour Apple Silicon via la quantification MLX

Un développeur a quantifié un modèle Qwen 3.5 27B distillé à partir des trajectoires de raisonnement de Claude 4.6 Opus, réduisant sa taille de 55,6 Go à 14 Go en utilisant MLX pour Apple Silicon, atteignant environ 16 tokens/seconde sur un M4 Pro tout en conservant les capacités de raisonnement analytique du modèle.

OpenClawRadar
agent-recall : MCP SQLite local pour une mémoire de code Claude persistante
Tools

agent-recall : MCP SQLite local pour une mémoire de code Claude persistante

agent-recall est un serveur MCP qui donne à Claude Code une mémoire persistante entre les sessions en utilisant un fichier SQLite local. Il fournit 9 outils MCP pour sauvegarder des entités, des relations et des observations, avec des résumés générés par IA au début de chaque session au lieu de déversements de données brutes.

OpenClawRadar
Ssemble MCP Server Permet à Claude de Générer des Vidéos Courtes à Partir de YouTube
Tools

Ssemble MCP Server Permet à Claude de Générer des Vidéos Courtes à Partir de YouTube

Un nouveau serveur MCP pour Ssemble AI Clipping permet à Claude de créer des vidéos de style TikTok/Reels/Shorts à partir d'URL YouTube avec des clips générés par IA, des modèles de sous-titres, des pistes musicales et des superpositions. La configuration implique d'ajouter des paramètres à Claude Desktop ou d'utiliser un point de terminaison hébergé.

OpenClawRadar
Présentation de Lean Collab : Un Orchestrateur Multi-Agents pour les Tâches LLM de Longue Durée
Tools

Présentation de Lean Collab : Un Orchestrateur Multi-Agents pour les Tâches LLM de Longue Durée

Lean Collab est un orchestrateur open-source conçu pour gérer des tâches LLM de longue durée en utilisant des sous-agents coordonnés et parallèles.

OpenClawRadar