Mehrfach-Anbieter-LLM-Fallback-Kette mit Ollama-Unterstützung in der produktiven KI-IDE

✍️ OpenClawRadar📅 Veröffentlicht: 25. März 2026🔗 Source
Mehrfach-Anbieter-LLM-Fallback-Kette mit Ollama-Unterstützung in der produktiven KI-IDE
Ad

Resonant Genesis, eine produktive AI-IDE-Plattform, hat lokale LLM-Unterstützung als erstklassigen Anbieter in ihre Architektur integriert. Die Plattform läuft über 30+ Microservices hinweg und behandelt lokale Modelle gleichwertig wie Cloud-Anbieter wie Groq, OpenAI, Anthropic und Gemini.

Architektur und Integration

Die Plattform verwendet eine gemeinsame rg_llm-Bibliothek namens UnifiedLLMClient, die volumen-gemountet über alle Dienste hinweg verfügbar ist. Jeder Microservice, der LLM-Fähigkeiten benötigt, importiert denselben Client. Die Fallback-Kette ist konfiguriert als: Groq → OpenAI → Anthropic → Gemini → Ollama/LM Studio.

Die Thin-Client-Erweiterung der IDE entdeckt automatisch lokale Ollama-Modelle und fügt sie der Anbieterliste hinzu. Benutzer können das System so konfigurieren, dass lokale Modelle bevorzugt werden, wenn gewünscht.

Serverseitige Orchestrierung

Die gesamte Orchestrierung erfolgt serverseitig, wobei die IDE als Thin-Client fungiert, der die Benutzeroberfläche rendert, lokale Tools ausführt (Dateioperationen, Terminal, Git) und Ergebnisse über Server-Sent Events (SSE) streamt. Die agentische Schleife, Tool-Auswahl, System-Prompts und LLM-Routing finden alle auf dem Server statt.

Bei Verwendung eines lokalen Modells durchläuft es denselben kontrollierten Ausführungspipeline:

  • Vorausführungsrichtlinien-Durchsetzung (blockiert Aktionen, bevor sie ausgeführt werden)
  • Native Funktionsaufrufe über Provider-APIs (keine JSON-Prompt-Injektion)
  • Kryptografische Identität (DSID auf Ethereum L2) für jeden Agenten
  • Dieselben 59 lokalen Tools verfügbar, unabhängig davon, welchen LLM-Anbieter Sie wählen
Ad

Vorteile für lokale LLM-Benutzer

Für Benutzer, die Ollama lokal ausführen, bietet diese Architektur:

  • Datenschutz: Thin-Client-Architektur bedeutet keine Unternehmensintelligenz in der Binärdatei, und mit lokalen Modellen bleiben Prompts lokal
  • Tool-Nutzung: 59 lokale Tools mit nativen Funktionsaufrufen, keine prompt-injizierten JSON-Schemata
  • Fallback: Wenn ein lokales Modell eine komplexe Aufgabe nicht bewältigen kann, fällt es automatisch auf Cloud-Anbieter zurück

Die Entwickler suchen Feedback von Personen, die lokale Modelle ausführen, insbesondere bezüglich der Funktionsaufrufleistung mit kleineren Modellen und welche Modelle sich gut für agentische Tool-Nutzung eignen.

Das Projekt ist Open Source auf GitHub, und ein Gast-Chat, der das Tool-Ökosystem demonstriert, ist live auf dev-swat.com (verwendet Cloud-Modelle).

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

GuppyLM: Ein 9-Millionen-Parameter-LLM, das zu Bildungszwecken von Grund auf entwickelt wurde
Werkzeuge

GuppyLM: Ein 9-Millionen-Parameter-LLM, das zu Bildungszwecken von Grund auf entwickelt wurde

GuppyLM ist ein Sprachmodell mit ~9M Parametern, das von Grund auf mit 60K synthetischen Gesprächen trainiert wurde. Es verwendet eine einfache Transformer-Architektur mit 6 Schichten, 384 versteckten Dimensionen und 6 Aufmerksamkeitsköpfen. Das Training dauert etwa 5 Minuten auf einer kostenlosen Colab T4 GPU, und es spricht mit einer Fisch-Persönlichkeit, die sich auf Wasser, Futter und Aquarienleben konzentriert.

OpenClawRadar
Entwickler baut Scheme-Compiler zu WASM mithilfe von KI in 4 Tagen
Werkzeuge

Entwickler baut Scheme-Compiler zu WASM mithilfe von KI in 4 Tagen

Ein Entwickler erstellte Puppy Scheme, einen Scheme-Compiler, der WebAssembly als Ziel hat, in etwa 4 Tagen mit KI-Unterstützung. Der Compiler unterstützt 73 % von R5RS und R7RS, nutzt WASM GC und erreichte Verbesserungen der Kompilierzeit von 3½ Minuten auf 11 Sekunden über Nacht.

OpenClawRadar
Pangolin: Open-Source identitätsbasierte VPN als ZTNA-Alternative
Werkzeuge

Pangolin: Open-Source identitätsbasierte VPN als ZTNA-Alternative

Pangolin ist ein Open-Source-VPN, das sich auf identitätsbasierten Fernzugriff konzentriert und eine Alternative zu Cloudflare ZTNA, Zscaler und Twingate bietet.

OpenClawRadar
Blackwell LLM Toolkit: NVFP4-Konfigurationen, Räder und Benchmarks für TensorRT-LLM auf RTX Pro 6000
Werkzeuge

Blackwell LLM Toolkit: NVFP4-Konfigurationen, Räder und Benchmarks für TensorRT-LLM auf RTX Pro 6000

Ein Community-Repository bietet TensorRT-LLM-Konfigurationen, vorgebaute LMCache-Räder mit sm_120-Unterstützung und Benchmarks für Blackwell-GPUs. Nemotron-3-Nano-Omni V3 erreicht 270 tok/s bei 8k Kontext auf einer einzelnen RTX Pro 6000.

OpenClawRadar