RouteLLM-Einrichtung für kosteneffizientes KI-Aufgaben-Routing

✍️ OpenClawRadar📅 Veröffentlicht: 9. März 2026🔗 Source
RouteLLM-Einrichtung für kosteneffizientes KI-Aufgaben-Routing
Ad

Docker Compose-Konfiguration für hybride KI-Einrichtung

Ein Reddit-Nutzer hat eine detaillierte Docker Compose-Einrichtung gepostet, die er als "Poor Man's Superintelligence" bezeichnet – ein hybrides KI-System, das Aufgaben je nach Komplexität zwischen lokalen und Cloud-Modellen weiterleitet.

Kernkomponenten

Das System verwendet vier Hauptdienste:

  • vscode-openwire: Nutzt das Image sendmeticket/vscode-openwire:1.0.0 mit den freigegebenen Ports 3000 und 3030. Dies ermöglicht den Zugriff auf GitHub Copilot über OpenWire, wobei die Quelle darauf hinweist, dass dies möglicherweise gegen die Nutzungsbedingungen verstößt und stattdessen die Verwendung eines verfügbaren API-Schlüssels empfiehlt.
  • ollama: Läuft ollama/ollama:latest mit freigegebenem Port 11434. Es lädt automatisch das qwen3.5:4b-Modell herunter und stellt es als lokales "schwaches" Modell bereit.
  • openroutellm: Verwendet das Image sendmeticket/openroutellm:1.0.0 auf Port 6060. Dies ist der Routing-Dienst, der entscheidet, welches Modell jede Anfrage bearbeitet.
  • openclaw: Läuft ghcr.io/openclaw/openclaw:latest mit den freigegebenen Ports 18789 und 18790 und dient als Hauptschnittstelle.
Ad

RouteLLM-Konfiguration

Der openroutellm-Dienst ist mit spezifischen Parametern konfiguriert:

python -m routellm.openai_server --routers bert --default-router-threshold 0.75 --port 6060 --openwire-base-url http://vscode-openwire:3030/v1 --ollama-base-url http://ollama:11434/v1 --strong-model gpt-4o --weak-model qwen3.5:4b

Dieser Aufbau verwendet BERT-basiertes Routing mit einem Schwellenwert von 0,75, um zu bestimmen, wann Aufgaben an das "starke" Modell (GPT-4o) gesendet werden sollen, anstatt an das lokale "schwache" Modell (Qwen3.5:4b).

Funktionsweise

Das System leitet schwierige Aufgaben an das kostenpflichtige GPT-4o-Modell über OpenWire/Copilot weiter, während einfachere Aufgaben vom lokalen Qwen3.5:4b-Modell in Ollama bearbeitet werden. Der Autor beschreibt dies als "ausfallsicheres, lokal priorisiertes KI-Modell mit niedriger Grundintelligenz, aber sehr hoher Maximalintelligenz".

Alle Dienste sind über ein benutzerdefiniertes Docker-Netzwerk (openclaw_net mit Subnetz 172.10.10.0/24) verbunden und enthalten Gesundheitsprüfungen, um die Verfügbarkeit der Dienste sicherzustellen.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

LoreConvo: MCP-Server fügt Claude Code persistenten Sitzungsspeicher hinzu
Werkzeuge

LoreConvo: MCP-Server fügt Claude Code persistenten Sitzungsspeicher hinzu

LoreConvo ist ein MCP-Server, der Claude Code mit persistenter Sitzungsspeicherung versorgt und automatisch Kontext zwischen Sitzungen speichert und lädt. Er spart 3.000–8.000 Token pro Sitzung, indem er den Aufwand für das erneute Kontextualisieren eliminiert.

OpenClawRadar
Claude Codes plan-skeptischer Sub-Agent identifiziert Sicherheitslücken in generierten Plänen
Werkzeuge

Claude Codes plan-skeptischer Sub-Agent identifiziert Sicherheitslücken in generierten Plänen

Ein Entwickler entdeckte den Plan-Skeptiker-Subagenten von Claude Code, der Lücken und Probleme in KI-generierten Entwicklungsplänen identifiziert, insbesondere Sicherheitsbedenken aufdeckt, die zunächst nicht offensichtlich waren. Der Agent arbeitet neben dem bereits bekannten Security-Sheriff-Subagenten zusammen, um die Planqualität zu verbessern.

OpenClawRadar
Qure: Desktop-App zur Generierung von E2E-Tests aus aufgezeichneten Browser-Abläufen
Werkzeuge

Qure: Desktop-App zur Generierung von E2E-Tests aus aufgezeichneten Browser-Abläufen

Qure ist eine Desktop-Anwendung von JetBrains (derzeit in geschlossener Beta), die aus Aufnahmen im integrierten Browser vollständigen Web-Testcode generiert. Anstatt Testabläufe in Textform für KI-Agenten zu beschreiben, zeichnen Entwickler ihre manuellen QA-Szenarien durch Interaktion mit ihrem Produkt auf, und die KI erzeugt funktionierenden Testcode, der zu ihrer bestehenden Codebasis passt.

OpenClawRadar
Claude Command Center: Open-Source Dashboard für Claude Code Analytics
Werkzeuge

Claude Command Center: Open-Source Dashboard für Claude Code Analytics

Claude Command Center ist ein lokales Dashboard, das Ihr ~/.claude/-Verzeichnis ausliest, um Claude-Code-Sitzungsdaten, Kosten und MCP-Serverkonfigurationen anzuzeigen. Vollständig mit Claude Code erstellt, mit einem Express-Backend und React-Frontend, erfordert es keine Konfiguration und läuft lokal ohne Cloud oder Telemetrie.

OpenClawRadar