Reasoning Guard: Proxy-Level Schleifenerkennung für lokale LLM-Inferenz

Ein Entwickler, der Qwen3.6 MoE hinter einem vLLM-Proxy betreibt, stieß auf ein häufiges Zuverlässigkeitsproblem: ausufernde Denkschleifen, in denen das Modell sich innerhalb eines Denkblocks wiederholt, Tokens verbrennt und Agents blockiert. Bei 180+ Tokens/s verschwendet selbst eine 20–30 Sekunden lange Schleife GPU-Zeit und blockiert Client-Anfragen. Sie entwickelten einen leichtgewichtigen Guard, der in der Proxy-Schicht lebt und deterministische Prüfungen auf den Streaming-Output anwendet, bevor dieser den Client erreicht.
Architektur
Client → Proxy → vLLM → Modell
Der Proxy fängt den Streaming-Response ab, sobald er vLLM verlässt. Er verändert keine Modellgewichte, ruft kein zweites LLM auf und verwendet weder Embeddings noch semantische Analysen. Alle Prüfungen sind günstig und deterministisch.
Was geprüft wird
- Token-Obergrenzen für das Denken (konfigurierbar pro Aufwandsstufe)
- Erkennung wiederholter Absätze
- Gleitfenster-basierte N-Gramm-Wiederholung
- Fingerprinting wiederholter Sätze
- Vage Erkennung von Einstiegsmustern (erfasst Schleifen wie „Eigentlich, ich glaube, ich habe es gefunden…“)
- Cut-und-Continue-Wiederherstellungspfad
Wiederherstellungsablauf
Wenn der Guard auslöst, tut er Folgendes:
- Stoppt den Upstream-Stream
- Erfasst das bisher produzierte Denken
- Sendet die Anfrage erneut mit diesem Denken als vorherigem Assistentenkontext
- Deaktiviert das Denken für die Fortsetzung
- Führt die Nutzungsstatistiken von Phase 1 und Phase 2 zusammen
Da das vLLM-Prefix-Caching bereits aktiv ist, ist die Fortsetzung praktisch nahtlos. Phase 2 startet normalerweise mit ~50–100ms TTFT, sodass der Client sieht, wie das Denken direkt in die endgültige Antwort übergeht, anstatt zu hängen.
Beobachtbarkeit
Der Proxy protokolliert jede Auslösung mit:
- Ob der Guard ausgelöst hat
- Auslösegrund
- Verwendete Token-Obergrenze
- Anzahl der Denk-Token
- Zusammengeführte Gesamtnutzung
- Stream-Ende-Metadaten
Ergebnis
Vorher: gelegentlich 2000+ Token-Denkblöcke, die zu nichts führten. Nachher: Das Modell denkt immer noch, wenn es nützlich ist, aber ausuferndes Denken wird abgeschnitten und in eine Antwort umgeleitet. Der Autor beschreibt es als „Proxy-Level-Sicherheitsgurt für lokale LLM-Inferenz“.
Keine Modell-Chirurgie, keine zusätzlichen LLM-Aufrufe – nur Stream-Interception, Token-Zählung, Schleifenerkennung und ein sauberer Wiederherstellungspfad. Der Guard wurde Ende-zu-Ende durch den Live-Proxy gegen echte Trace-Logs validiert.
📖 Vollständige Quelle lesen: r/LocalLLaMA
👀 Siehe auch

Memora v0.2.25 MCP-Server: 5× schnellere Schreibvorgänge auf D1-Datenbank
Memora v0.2.25, ein MCP-Server für das persistente Gedächtnis von Claude, erreicht 5-mal schnellere Schreibvorgänge auf Cloudflare D1, wobei sich memory_create von über 10s auf ~1,8s und memory_update von über 10s auf ~1,1s pro Aufruf reduziert.

Open-Source Ralph Loop Toolkit für Claude Code: Pickle Rick und Mr. Meeseeks Agents
Eine Open-Source-Erweiterung für Claude Code implementiert die Ralph-Loop-Technik mit zwei autonomen Agenten: Pickle Rick für PRD-gesteuerte Entwicklung und Mr. Meeseeks für Code-Review. Beide nutzen tmux mit Live-Dashboards und macOS-Benachrichtigungen.

Memtrace: Beständiger, zeitbewusster Codebase-Speicher für Claude Code-Agenten
Memtrace liefert stets aktuelle Snapshots und bi-temporales Replay für Claude Code Agents. Es nutzt Tree-sitter AST-Parsing und hybrides Retrieval (BM25 + Jina-code-Embeddings) ohne LLM-Inferenzkosten während der Indexierung.

ClawVibe: Ein freihändiger iOS-Sprachassistent für KI-Agenten mit geräteinternem STT/TTS
ClawVibe ist eine native iOS-App, die während der Fahrt freihändige Sprachinteraktion mit KI-Agenten ermöglicht. Sie nutzt geräteinterne Spracherkennung und TTS, unterstützt CarPlay und verwendet Sprachbiometrie, um Hintergrundgeräusche herauszufiltern. Über das Netzwerk werden nur Texte gesendet.