RouteLLM : Config Docker pour Routage IA Économique

Configuration Docker Compose pour une Installation IA Hybride

Un utilisateur de Reddit a publié une configuration Docker Compose détaillée qui met en œuvre ce qu'ils appellent la "Superintelligence du Pauvre" - un système d'IA hybride qui route les tâches entre des modèles locaux et cloud en fonction de leur complexité.

Composants Principaux

Le système utilise quatre services principaux :

vscode-openwire : Utilise l'image sendmeticket/vscode-openwire:1.0.0 avec les ports 3000 et 3030 exposés. Cela permet d'accéder à GitHub Copilot via OpenWire, bien que la source note que cela pourrait violer les conditions d'utilisation et suggère d'utiliser une clé API disponible à la place.
ollama : Exécute ollama/ollama:latest avec le port 11434 exposé. Il télécharge et sert automatiquement le modèle qwen3.5:4b comme modèle local "faible".
openroutellm : Utilise l'image sendmeticket/openroutellm:1.0.0 sur le port 6060. C'est le service de routage qui décide quel modèle traite chaque requête.
openclaw : Exécute ghcr.io/openclaw/openclaw:latest avec les ports 18789 et 18790 exposés, servant d'interface principale.

Configuration RouteLLM

Le service openroutellm est configuré avec des paramètres spécifiques :

python -m routellm.openai_server --routers bert --default-router-threshold 0.75 --port 6060 --openwire-base-url http://vscode-openwire:3030/v1 --ollama-base-url http://ollama:11434/v1 --strong-model gpt-4o --weak-model qwen3.5:4b

Cette installation utilise un routage basé sur BERT avec un seuil de 0,75 pour déterminer quand envoyer les tâches au modèle "fort" (GPT-4o) par rapport au modèle local "faible" (Qwen3.5:4b).

Fonctionnement

Le système route les tâches difficiles vers le modèle payant GPT-4o via OpenWire/Copilot, tandis que les tâches plus simples sont gérées par le modèle local Qwen3.5:4b fonctionnant dans Ollama. Cela crée ce que l'auteur décrit comme un "modèle d'IA local-first avec sécurité intégrée, ayant une intelligence de base faible mais une intelligence maximale très élevée".

Tous les services sont connectés via un réseau Docker personnalisé (openclaw_net avec le sous-réseau 172.10.10.0/24) et incluent des vérifications de santé pour assurer la disponibilité des services.

📖 Lire la source complète : r/LocalLLaMA