Praktische Erfahrungen beim Ersetzen des Automatisierungsstacks durch MCP-Server und lokale LLMs

✍️ OpenClawRadar📅 Veröffentlicht: 1. März 2026🔗 Source
Praktische Erfahrungen beim Ersetzen des Automatisierungsstacks durch MCP-Server und lokale LLMs
Ad

Setup und Hardware

Der Entwickler betreibt eine Mischung aus Qwen 2.5 32B (quantisiert) und Llama 3.3 70B auf einem Dual-3090-System. Jede Automatisierungsaufgabe erhält einen eigenen MCP-Server, der Werkzeuge bereitstellt, die das Modell aufrufen kann – ähnlich einer API, die ein LLM nutzt, statt eines Menschen.

Was gut funktioniert

  • Automatisierte Code-Überprüfung: Das Modell zeigt über MCP-Werkzeuge auf einen Git-Diff und erkennt echte Probleme wie Logikfehler, fehlende Fehlerbehandlung und Race Conditions. Funktioniert etwa 70 % so gut wie eine Überprüfung durch einen Senior-Entwickler.
  • Loganalyse und Alarmierung: Der MCP-Server verbindet sich mit dem ELK-Stack, wobei das Modell nach Anomaliemustern sucht. Es hat 3 Produktionsprobleme erkannt, bevor Grafana-Alarme ausgelöst wurden. Der Schlüssel liegt darin, genügend Kontext darüber zu geben, was für Ihr System „normal“ ist.
  • Dokumentationsgenerierung: Das Modell liest den Codebestand über MCP-Dateiwerkzeuge und generiert/aktualisiert API-Dokumentation, spart Stunden pro Woche und liefert tatsächlich gute Ausgabequalität.
Ad

Was (noch) nicht funktioniert

  • Mehrstufige Argumentationsketten: Alles, was mehr als 3–4 Werkzeugaufrufe in Folge erfordert, gerät aus dem Ruder, da das Modell den Kontext des ursprünglichen Ziels verliert. Kleinere Kontextfenster verschlimmern dies. Chain-of-Thought-Prompting hilft, löst das Problem aber nicht.
  • Echtzeit-Entscheidungsfindung: Die Latenz bei 70B-Modellen bedeutet, dass dies nicht für zeitkritische Aufgaben verwendet werden kann. Die Code-Überprüfungspipeline dauert 2–3 Minuten pro PR, was für asynchrone Workflows in Ordnung, aber für Echtzeitanwendungen unbrauchbar ist.
  • Kreative Problemlösung: Lokale Modelle haben Schwierigkeiten mit Aufgaben, die Ansätze erfordern, die in den Trainingsdaten nicht gut repräsentiert sind. API-Modelle (Claude, GPT-4) sind hier deutlich besser.

Wichtige Architekturlektionen

  • Halten Sie MCP-Server zustandslos. Lassen Sie das Modell den Zustand über Werkzeugaufrufe verwalten, nicht serverseitige Sitzungen.
  • Integrieren Sie Wiederholungslogik in Ihren MCP-Client, nicht in den Server. Modelle machen in etwa 5 % der Fälle fehlerhafte Werkzeugaufrufe.
  • Protokollieren Sie jeden Werkzeugaufruf und jede Antwort zur Fehlerbehebung, wenn das Modell etwas Unerwartetes tut.
  • Verwenden Sie strukturierte Ausgabe (JSON-Modus) für alles, was nachgelagerte Systeme konsumieren. Freiform-Textausgabe ist ein Debugging-Albtraum.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Claude-Nutzer experimentieren mit KI-zu-KI-Kommunikation für schwierige Gespräche
Anwendungsfälle

Claude-Nutzer experimentieren mit KI-zu-KI-Kommunikation für schwierige Gespräche

Zwei Claude-Nutzer testeten, ob ihre KI-Assistenten direkt über sensible Themen wie Beziehungsprobleme kommunizieren können, wobei jede Person die Nachrichten vor dem Senden überprüfte. Das Experiment half, unausgesprochene Gefühle aufzudecken und diente als Übersetzungsschicht für schwierige Gespräche.

OpenClawRadar
Claude Opus 4.6 vs. Sonnet 4.6 für philosophische Argumentation: Ein direkter Nutzervergleich
Anwendungsfälle

Claude Opus 4.6 vs. Sonnet 4.6 für philosophische Argumentation: Ein direkter Nutzervergleich

Ein detaillierter Vergleich von Claude Opus 4.6 und Sonnet 4.6 für philosophische und geisteswissenschaftliche Arbeiten zeigt, dass Opus bei analytischer Zerlegung hervorragt, aber Subtexte nivelliert, während Sonnet Nuancen besser erfasst, aber schwächere Prosa hat. Der Nutzer fand Opus für implikationsreiches Denken erschöpfend und wechselte zu Sonnet.

OpenClawRadar
Claude Managed Agents veröffentlicht: Multi-Agent-Orchestrierung und 70 Tage praktischer Erfahrungen
Anwendungsfälle

Claude Managed Agents veröffentlicht: Multi-Agent-Orchestrierung und 70 Tage praktischer Erfahrungen

Anthropic hat Managed Agents für Multi-Agenten-Orchestrierung und verbesserte Toolchains veröffentlicht. Ein Entwickler teilt 70 Tage Erfahrung mit rollengetrennten Agenten (Opus-Entscheidungsschicht, OpenCode-Ingenieur, Forschungsagenten) und den entscheidenden Wandel von ‚führe dies aus‘ zu ‚du kannst meine Prämisse hinterfragen‘.

OpenClawRadar
Ein Monat mit OpenClaw: Erfolge bei der Personalisierung und Herausforderungen bei der Stabilität
Anwendungsfälle

Ein Monat mit OpenClaw: Erfolge bei der Personalisierung und Herausforderungen bei der Stabilität

Ein KI-Forscher ersetzte ChatGPT Plus für einen Monat durch OpenClaw und erreichte personalisierte Chatbot-Funktionalität über USER.md- und PERSONAL_MODEL.md-Dateien, tägliche Check-in-Agenten und Ausgabenberichte, stieß jedoch auf anhaltende Fehler, die Claude-Code-Intervention erforderten.

OpenClawRadar