RouteLLM Einrichtung: KI-Aufgaben-Routing mit Qwen3.5 & GPT-4o

Docker Compose-Konfiguration für hybride KI-Einrichtung

Ein Reddit-Nutzer hat eine detaillierte Docker Compose-Einrichtung gepostet, die er als "Poor Man's Superintelligence" bezeichnet – ein hybrides KI-System, das Aufgaben je nach Komplexität zwischen lokalen und Cloud-Modellen weiterleitet.

Kernkomponenten

Das System verwendet vier Hauptdienste:

vscode-openwire: Nutzt das Image sendmeticket/vscode-openwire:1.0.0 mit den freigegebenen Ports 3000 und 3030. Dies ermöglicht den Zugriff auf GitHub Copilot über OpenWire, wobei die Quelle darauf hinweist, dass dies möglicherweise gegen die Nutzungsbedingungen verstößt und stattdessen die Verwendung eines verfügbaren API-Schlüssels empfiehlt.
ollama: Läuft ollama/ollama:latest mit freigegebenem Port 11434. Es lädt automatisch das qwen3.5:4b-Modell herunter und stellt es als lokales "schwaches" Modell bereit.
openroutellm: Verwendet das Image sendmeticket/openroutellm:1.0.0 auf Port 6060. Dies ist der Routing-Dienst, der entscheidet, welches Modell jede Anfrage bearbeitet.
openclaw: Läuft ghcr.io/openclaw/openclaw:latest mit den freigegebenen Ports 18789 und 18790 und dient als Hauptschnittstelle.

RouteLLM-Konfiguration

Der openroutellm-Dienst ist mit spezifischen Parametern konfiguriert:

python -m routellm.openai_server --routers bert --default-router-threshold 0.75 --port 6060 --openwire-base-url http://vscode-openwire:3030/v1 --ollama-base-url http://ollama:11434/v1 --strong-model gpt-4o --weak-model qwen3.5:4b

Dieser Aufbau verwendet BERT-basiertes Routing mit einem Schwellenwert von 0,75, um zu bestimmen, wann Aufgaben an das "starke" Modell (GPT-4o) gesendet werden sollen, anstatt an das lokale "schwache" Modell (Qwen3.5:4b).

Funktionsweise

Das System leitet schwierige Aufgaben an das kostenpflichtige GPT-4o-Modell über OpenWire/Copilot weiter, während einfachere Aufgaben vom lokalen Qwen3.5:4b-Modell in Ollama bearbeitet werden. Der Autor beschreibt dies als "ausfallsicheres, lokal priorisiertes KI-Modell mit niedriger Grundintelligenz, aber sehr hoher Maximalintelligenz".

Alle Dienste sind über ein benutzerdefiniertes Docker-Netzwerk (openclaw_net mit Subnetz 172.10.10.0/24) verbunden und enthalten Gesundheitsprüfungen, um die Verfügbarkeit der Dienste sicherzustellen.

📖 Read the full source: r/LocalLLaMA

RouteLLM-Einrichtung für kosteneffizientes KI-Aufgaben-Routing

Docker Compose-Konfiguration für hybride KI-Einrichtung

Kernkomponenten

RouteLLM-Konfiguration

Funktionsweise

👀 Siehe auch

LoreConvo: MCP-Server fügt Claude Code persistenten Sitzungsspeicher hinzu

Claude Codes plan-skeptischer Sub-Agent identifiziert Sicherheitslücken in generierten Plänen

Qure: Desktop-App zur Generierung von E2E-Tests aus aufgezeichneten Browser-Abläufen

Claude Command Center: Open-Source Dashboard für Claude Code Analytics