Configuration de RouteLLM pour un Routage Économique des Tâches d'IA

Configuration Docker Compose pour une Installation IA Hybride
Un utilisateur de Reddit a publié une configuration Docker Compose détaillée qui met en œuvre ce qu'ils appellent la "Superintelligence du Pauvre" - un système d'IA hybride qui route les tâches entre des modèles locaux et cloud en fonction de leur complexité.
Composants Principaux
Le système utilise quatre services principaux :
- vscode-openwire : Utilise l'image
sendmeticket/vscode-openwire:1.0.0avec les ports 3000 et 3030 exposés. Cela permet d'accéder à GitHub Copilot via OpenWire, bien que la source note que cela pourrait violer les conditions d'utilisation et suggère d'utiliser une clé API disponible à la place. - ollama : Exécute
ollama/ollama:latestavec le port 11434 exposé. Il télécharge et sert automatiquement le modèleqwen3.5:4bcomme modèle local "faible". - openroutellm : Utilise l'image
sendmeticket/openroutellm:1.0.0sur le port 6060. C'est le service de routage qui décide quel modèle traite chaque requête. - openclaw : Exécute
ghcr.io/openclaw/openclaw:latestavec les ports 18789 et 18790 exposés, servant d'interface principale.
Configuration RouteLLM
Le service openroutellm est configuré avec des paramètres spécifiques :
python -m routellm.openai_server --routers bert --default-router-threshold 0.75 --port 6060 --openwire-base-url http://vscode-openwire:3030/v1 --ollama-base-url http://ollama:11434/v1 --strong-model gpt-4o --weak-model qwen3.5:4bCette installation utilise un routage basé sur BERT avec un seuil de 0,75 pour déterminer quand envoyer les tâches au modèle "fort" (GPT-4o) par rapport au modèle local "faible" (Qwen3.5:4b).
Fonctionnement
Le système route les tâches difficiles vers le modèle payant GPT-4o via OpenWire/Copilot, tandis que les tâches plus simples sont gérées par le modèle local Qwen3.5:4b fonctionnant dans Ollama. Cela crée ce que l'auteur décrit comme un "modèle d'IA local-first avec sécurité intégrée, ayant une intelligence de base faible mais une intelligence maximale très élevée".
Tous les services sont connectés via un réseau Docker personnalisé (openclaw_net avec le sous-réseau 172.10.10.0/24) et incluent des vérifications de santé pour assurer la disponibilité des services.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Guilde OpenClaw : Serveur d'agents IA multi-utilisateurs pour les équipes
OpenClaw Guild étend OpenClaw mono-utilisateur en un serveur d'IA multi-utilisateurs avec contrôle d'accès basé sur les rôles, des données isolées par agent et un système de mémoire à 4 niveaux. Il comprend un tableau de bord d'administration web et un déploiement Docker-compose pour une installation en 15 minutes.

7 commandes slash, 0,45 $/article : Ce pipeline Claude Code exécute une opération complète de contenu SEO
Un développeur a open-sourcé un pipeline Claude Code en 7 commandes qui gère la recherche SEO, la rédaction, l'optimisation et la publication. Coût : 0,45 $/article (API Perplexity), exécution en 15 min/jour. Résultats : 18× d'impressions mensuelles en 12 mois.

Plugin open-source Claude génère des accordeurs visuels interactifs avec prévisualisation en direct.
Un développeur a créé un plugin open-source permettant à Claude Code de générer des pages HTML uniques avec des curseurs et des canevas infinis de style Figma pour affiner les valeurs CSS. Le plugin lit les fichiers sources, reproduit les éléments sur un canevas interactif et fournit des commandes pour des ajustements précis avec un aperçu en direct.

LORE.md : Une Norme Ouverte pour Extraire des Connaissances Structurées des Conversations IA
LORE.md est une norme ouverte pour extraire des connaissances durables des conversations d'IA dans un format structuré. Elle capture les décisions avec leur justification, les idées, les modèles, les questions ouvertes et les prochaines étapes, avec tout ce qui est lié entre les sessions.