Reasoning Guard: Schleifenerkennung für lokale LLM-Inferenz

Ein Entwickler, der Qwen3.6 MoE hinter einem vLLM-Proxy betreibt, stieß auf ein häufiges Zuverlässigkeitsproblem: ausufernde Denkschleifen, in denen das Modell sich innerhalb eines Denkblocks wiederholt, Tokens verbrennt und Agents blockiert. Bei 180+ Tokens/s verschwendet selbst eine 20–30 Sekunden lange Schleife GPU-Zeit und blockiert Client-Anfragen. Sie entwickelten einen leichtgewichtigen Guard, der in der Proxy-Schicht lebt und deterministische Prüfungen auf den Streaming-Output anwendet, bevor dieser den Client erreicht.

Architektur

Client → Proxy → vLLM → Modell

Der Proxy fängt den Streaming-Response ab, sobald er vLLM verlässt. Er verändert keine Modellgewichte, ruft kein zweites LLM auf und verwendet weder Embeddings noch semantische Analysen. Alle Prüfungen sind günstig und deterministisch.

Was geprüft wird

Token-Obergrenzen für das Denken (konfigurierbar pro Aufwandsstufe)
Erkennung wiederholter Absätze
Gleitfenster-basierte N-Gramm-Wiederholung
Fingerprinting wiederholter Sätze
Vage Erkennung von Einstiegsmustern (erfasst Schleifen wie „Eigentlich, ich glaube, ich habe es gefunden…“)
Cut-und-Continue-Wiederherstellungspfad

Wiederherstellungsablauf

Wenn der Guard auslöst, tut er Folgendes:

Stoppt den Upstream-Stream
Erfasst das bisher produzierte Denken
Sendet die Anfrage erneut mit diesem Denken als vorherigem Assistentenkontext
Deaktiviert das Denken für die Fortsetzung
Führt die Nutzungsstatistiken von Phase 1 und Phase 2 zusammen

Da das vLLM-Prefix-Caching bereits aktiv ist, ist die Fortsetzung praktisch nahtlos. Phase 2 startet normalerweise mit ~50–100ms TTFT, sodass der Client sieht, wie das Denken direkt in die endgültige Antwort übergeht, anstatt zu hängen.

Beobachtbarkeit

Der Proxy protokolliert jede Auslösung mit:

Ob der Guard ausgelöst hat
Auslösegrund
Verwendete Token-Obergrenze
Anzahl der Denk-Token
Zusammengeführte Gesamtnutzung
Stream-Ende-Metadaten

Ergebnis

Vorher: gelegentlich 2000+ Token-Denkblöcke, die zu nichts führten. Nachher: Das Modell denkt immer noch, wenn es nützlich ist, aber ausuferndes Denken wird abgeschnitten und in eine Antwort umgeleitet. Der Autor beschreibt es als „Proxy-Level-Sicherheitsgurt für lokale LLM-Inferenz“.

Keine Modell-Chirurgie, keine zusätzlichen LLM-Aufrufe – nur Stream-Interception, Token-Zählung, Schleifenerkennung und ein sauberer Wiederherstellungspfad. Der Guard wurde Ende-zu-Ende durch den Live-Proxy gegen echte Trace-Logs validiert.

📖 Vollständige Quelle lesen: r/LocalLLaMA