Comment Mendral a réduit les coûts des LLM en passant à Opus : schéma de triage, accès SQL et architecture de sous-agent

✍️ OpenClawRadar📅 Publié: April 29, 2026🔗 Source
Comment Mendral a réduit les coûts des LLM en passant à Opus : schéma de triage, accès SQL et architecture de sous-agent
Ad

Mendral a récemment publié des détails sur la façon dont ils ont amélioré leur système avec Opus 4.6 pour l'analyse des échecs CI tout en réduisant les coûts globaux d'IA générative par rapport à leur configuration précédente avec Sonnet 4.0. La clé réside dans une architecture qui sépare le triage de l'investigation et utilise des sous-agents peu coûteux pour le travail lourd.

Architecture : un trieur bon marché, un planificateur coûteux

Sur environ 4 000 échecs CI analysés, 3 187 étaient des doublons — un test instable connu, un problème d'infrastructure ou un incident réseau. Réveiller un modèle coûteux pour ceux-ci est un gaspillage. Mais la déduplication n'est pas déterministe : un même job peut échouer pour différentes raisons. Leur solution est un modèle de trieur :

  • Un agent Haiku gère la tâche étroite : décider si un échec est déjà suivi. Il utilise la correspondance exacte et la recherche sémantique (pgvector) sur les messages d'erreur connus. Deux chaînes différentes comme operator does not exist bigint character varying et migration type mismatch on installation_id ont la même cause racine — la recherche sémantique les détecte.
  • En cas de doute, Haiku escalade vers Opus 4.6. Un faux positif coûte peu ; un faux négatif laisse passer un vrai bug.
  • 4 échecs sur 5 n'atteignent jamais Opus. Une correspondance du trieur coûte environ 25 fois moins qu'une investigation complète.
Ad

Laissez les agents récupérer le contexte, ne le poussez pas

Au lieu de bourrer les logs de 200 000+ lignes dans les prompts, les agents reçoivent une interface SQL vers ClickHouse. Il y a une table brute (github_logs, une ligne par ligne de log) et des vues matérialisées avec des données pré-agrégées : taux d'échec par workflow, temps d'exécution des jobs, nombre de résultats. La plupart des investigations commencent par les vues pour cibler, puis plongent dans les logs bruts. Si une requête renvoie trop de lignes, le système tronque et suggère une vue plus spécifique. Si les logs ne sont pas encore ingérés, les agents utilisent l'interface en ligne de commande GitHub.

Les modèles coûteux planifient, les modèles bon marché exécutent

Opus forme une hypothèse et génère des sous-agents Haiku limités à un niveau de profondeur — pas de ramification illimitée. Chaque sous-agent reçoit un prompt d'Opus : exactement quoi chercher et comment. Exemple d'un cas réel :

Trois jobs CI Storybook ont échoué sur le même commit, en plantant à pnpm install. Opus a envoyé un sous-agent pour récupérer les messages d'erreur de cette étape. ClickHouse n'avait pas encore les logs, donc le sous-agent a utilisé l'interface en ligne de commande GitHub et a renvoyé : gyp ERR! not found: make[email protected] ne pouvait pas compiler car make n'était pas sur l'exécuteur. Opus a ensuite interrogé ClickHouse pour la tendance des échecs sur 14 jours, a trouvé le point d'inflexion et a escaladé. Les prompts des sous-agents sont explicites : "Récupérez les logs CI pour cette exécution. Renvoyez les messages d'erreur exacts de l'étape pnpm install, la sortie d'erreur complète, en particulier les 50 à 100 dernières lignes."

À qui cela s'adresse

Les équipes construisant des agents alimentés par l'IA pour le débogage CI ou toute tâche où la taille du contexte et le coût sont des préoccupations.

📖 Lire la source complète : HN LLM Tools

Ad

👀 See Also

Le plugin Claude-ETA ajoute le chronométrage des tâches et la détection de boucles de réparation à Claude Code.
Tools

Le plugin Claude-ETA ajoute le chronométrage des tâches et la détection de boucles de réparation à Claude Code.

Claude-ETA est un plugin Claude Code qui chronomètre les tâches, apprend votre vitesse réelle et renvoie des données réelles à Claude avant qu'il ne réponde. Il détecte également les boucles de réparation en identifiant le contenu des erreurs et intervient après trois échecs identiques.

OpenClawRadar
Collection de 177 Modèles SOUL.md OpenClaw Organisés en 24 Catégories
Tools

Collection de 177 Modèles SOUL.md OpenClaw Organisés en 24 Catégories

Un développeur a compilé 177 modèles SOUL.md prêts à l'emploi pour les agents OpenClaw répartis en 24 catégories, notamment Marketing, Développement, Affaires, DevOps, Finance, Créatif, Données, Sécurité, Santé, Juridique, RH et Éducation. Tous les modèles sont sous licence MIT et disponibles sur GitHub.

OpenClawRadar
Délimiter la couche de gouvernance pour le développement d'IA multi-agents
Tools

Délimiter la couche de gouvernance pour le développement d'IA multi-agents

Delimit est une couche de gouvernance open-source qui coordonne plusieurs agents d'IA de codage pour prévenir les conflits. Il fournit une mémoire partagée, une détection de collision et un suivi d'audit pour des agents comme Claude Code, Codex et Gemini.

OpenClawRadar
Développeur partage son flux de travail hybride en codage IA : Claude pour la planification, modèles locaux pour l'exécution
Tools

Développeur partage son flux de travail hybride en codage IA : Claude pour la planification, modèles locaux pour l'exécution

Un développeur a créé un pipeline utilisant Claude 3.5 Sonnet pour la planification des tâches et des modèles locaux Qwen2.5-Coder via Ollama pour la génération de code, obtenant une réduction de 85 % des tokens par rapport à l'utilisation de Claude seul.

OpenClawRadar