Orkestra : Couche de Routage LLM Consciente des Coûts pour OpenClaw Réduit les Coûts d'API de 60 à 80 %

Ce que fait Orkestra
Orkestra est une couche de routage LLM consciente des coûts, conçue pour OpenClaw, qui réduit les coûts d'API de 60 à 80 %. C'est une architecture modulaire qui se place devant les appels aux modèles et décide quel niveau doit traiter chaque requête en fonction de la similarité sémantique.
Comment cela fonctionne
Lorsqu'un prompt arrive, il est intégré et passé à travers un classificateur KNN léger entraîné sur des charges de travail précédemment étiquetées. En fonction de la similarité sémantique, le routeur le catégorise comme budget, balanced ou premium et transfère l'appel en conséquence.
Il n'y a pas de réécriture de prompt et pas d'arbre de règles complexe — juste une classification sémantique au moment de l'appel. La réduction des coûts d'API provient principalement du fait d'empêcher les prompts plus simples d'être traités par défaut par les modèles les plus coûteux.
Intégration avec OpenClaw
Orkestra s'intègre en tant que compétence OpenClaw via un proxy local, de sorte que les pipelines existants restent totalement intacts. L'agent l'appelle via bash/curl vers un point de terminaison compatible OpenAI sur 127.0.0.1:8765.
La réponse inclut une transparence complète des coûts avec les champs _orkestra.cost et _orkestra.savings_percent.
Fournisseurs pris en charge et configuration
- Fournisseurs pris en charge : Google (Gemini), Anthropic (Claude), OpenAI
- Routage entre les niveaux budget/équilibré/premium au sein de chaque fournisseur
- Prend en charge le mode multi-fournisseur sur les trois fournisseurs
- Dépôt et intégration OpenClaw disponibles à : github.com/imperativelabs/orkestra
- Voir
integrations/openclaw/pour les fichiers de compétence, le proxy et des exemples de configuration
📖 Lire la source complète : r/openclaw
👀 See Also

Le développeur partage plus de 10 serveurs MCP pour le règlement des agents IA, la réputation et les micropaiements.
Un développeur a créé BlindOracle sur Claude Code avec plus de 100 agents et a développé plus de 10 serveurs MCP pour le règlement, la réputation et les micropaiements. L'architecture comprend des prévisions privées de type commit-reveal, un scoring sur chaîne, des micropaiements par requête et une attestation vérifiable des agents.

Gestion Automatisée de l'État de Session pour le Transfert de Code Claude
Un projet GitHub fournit des crochets automatisés pour maintenir un fichier d'état de session en direct (.claude/session-state.md) tout au long des conversations Claude, résolvant la perte de contexte due à l'autocompact et la dégradation du contexte en milieu de conversation. Le système utilise quatre scripts bash avec jq pour suivre les événements importants et les modifications de fichiers.

Compétence de balayage de sécurité pour les agents d'IA de codage vérifiant automatiquement les déploiements
Un développeur a créé un fichier de compétence qui permet aux agents d'IA de codage de scanner automatiquement leurs propres déploiements pour détecter les fichiers .env exposés, les ports ouverts, les en-têtes de sécurité manquants et le code source divulgué. L'analyse s'exécute après chaque déploiement et prend environ 30 secondes.

Utilisateur de Reddit mesure la surcharge des tokens MCP : 67 000 tokens consommés avant toute question
Un développeur a mesuré la surcharge de jetons de son serveur MCP à 67 000 jetons consommés avant même de poser une seule question, avec Playwright MCP utilisant 13 600 jetons et GitHub MCP utilisant 18 000 jetons en veille. Il a remplacé MCP par des compétences et des outils CLI pour réduire les coûts de contexte.