RouteLLM-Einrichtung für kosteneffizientes KI-Aufgaben-Routing

Docker Compose-Konfiguration für hybride KI-Einrichtung
Ein Reddit-Nutzer hat eine detaillierte Docker Compose-Einrichtung gepostet, die er als "Poor Man's Superintelligence" bezeichnet – ein hybrides KI-System, das Aufgaben je nach Komplexität zwischen lokalen und Cloud-Modellen weiterleitet.
Kernkomponenten
Das System verwendet vier Hauptdienste:
- vscode-openwire: Nutzt das Image
sendmeticket/vscode-openwire:1.0.0mit den freigegebenen Ports 3000 und 3030. Dies ermöglicht den Zugriff auf GitHub Copilot über OpenWire, wobei die Quelle darauf hinweist, dass dies möglicherweise gegen die Nutzungsbedingungen verstößt und stattdessen die Verwendung eines verfügbaren API-Schlüssels empfiehlt. - ollama: Läuft
ollama/ollama:latestmit freigegebenem Port 11434. Es lädt automatisch dasqwen3.5:4b-Modell herunter und stellt es als lokales "schwaches" Modell bereit. - openroutellm: Verwendet das Image
sendmeticket/openroutellm:1.0.0auf Port 6060. Dies ist der Routing-Dienst, der entscheidet, welches Modell jede Anfrage bearbeitet. - openclaw: Läuft
ghcr.io/openclaw/openclaw:latestmit den freigegebenen Ports 18789 und 18790 und dient als Hauptschnittstelle.
RouteLLM-Konfiguration
Der openroutellm-Dienst ist mit spezifischen Parametern konfiguriert:
python -m routellm.openai_server --routers bert --default-router-threshold 0.75 --port 6060 --openwire-base-url http://vscode-openwire:3030/v1 --ollama-base-url http://ollama:11434/v1 --strong-model gpt-4o --weak-model qwen3.5:4bDieser Aufbau verwendet BERT-basiertes Routing mit einem Schwellenwert von 0,75, um zu bestimmen, wann Aufgaben an das "starke" Modell (GPT-4o) gesendet werden sollen, anstatt an das lokale "schwache" Modell (Qwen3.5:4b).
Funktionsweise
Das System leitet schwierige Aufgaben an das kostenpflichtige GPT-4o-Modell über OpenWire/Copilot weiter, während einfachere Aufgaben vom lokalen Qwen3.5:4b-Modell in Ollama bearbeitet werden. Der Autor beschreibt dies als "ausfallsicheres, lokal priorisiertes KI-Modell mit niedriger Grundintelligenz, aber sehr hoher Maximalintelligenz".
Alle Dienste sind über ein benutzerdefiniertes Docker-Netzwerk (openclaw_net mit Subnetz 172.10.10.0/24) verbunden und enthalten Gesundheitsprüfungen, um die Verfügbarkeit der Dienste sicherzustellen.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

LoreConvo: MCP-Server fügt Claude Code persistenten Sitzungsspeicher hinzu
LoreConvo ist ein MCP-Server, der Claude Code mit persistenter Sitzungsspeicherung versorgt und automatisch Kontext zwischen Sitzungen speichert und lädt. Er spart 3.000–8.000 Token pro Sitzung, indem er den Aufwand für das erneute Kontextualisieren eliminiert.

Claude Codes plan-skeptischer Sub-Agent identifiziert Sicherheitslücken in generierten Plänen
Ein Entwickler entdeckte den Plan-Skeptiker-Subagenten von Claude Code, der Lücken und Probleme in KI-generierten Entwicklungsplänen identifiziert, insbesondere Sicherheitsbedenken aufdeckt, die zunächst nicht offensichtlich waren. Der Agent arbeitet neben dem bereits bekannten Security-Sheriff-Subagenten zusammen, um die Planqualität zu verbessern.

Qure: Desktop-App zur Generierung von E2E-Tests aus aufgezeichneten Browser-Abläufen
Qure ist eine Desktop-Anwendung von JetBrains (derzeit in geschlossener Beta), die aus Aufnahmen im integrierten Browser vollständigen Web-Testcode generiert. Anstatt Testabläufe in Textform für KI-Agenten zu beschreiben, zeichnen Entwickler ihre manuellen QA-Szenarien durch Interaktion mit ihrem Produkt auf, und die KI erzeugt funktionierenden Testcode, der zu ihrer bestehenden Codebasis passt.

Claude Command Center: Open-Source Dashboard für Claude Code Analytics
Claude Command Center ist ein lokales Dashboard, das Ihr ~/.claude/-Verzeichnis ausliest, um Claude-Code-Sitzungsdaten, Kosten und MCP-Serverkonfigurationen anzuzeigen. Vollständig mit Claude Code erstellt, mit einem Express-Backend und React-Frontend, erfordert es keine Konfiguration und läuft lokal ohne Cloud oder Telemetrie.