Reasoning Guard: Proxy-Level Schleifenerkennung für lokale LLM-Inferenz

✍️ OpenClawRadar📅 Veröffentlicht: 30. April 2026🔗 Source
Reasoning Guard: Proxy-Level Schleifenerkennung für lokale LLM-Inferenz
Ad

Ein Entwickler, der Qwen3.6 MoE hinter einem vLLM-Proxy betreibt, stieß auf ein häufiges Zuverlässigkeitsproblem: ausufernde Denkschleifen, in denen das Modell sich innerhalb eines Denkblocks wiederholt, Tokens verbrennt und Agents blockiert. Bei 180+ Tokens/s verschwendet selbst eine 20–30 Sekunden lange Schleife GPU-Zeit und blockiert Client-Anfragen. Sie entwickelten einen leichtgewichtigen Guard, der in der Proxy-Schicht lebt und deterministische Prüfungen auf den Streaming-Output anwendet, bevor dieser den Client erreicht.

Architektur

Client → Proxy → vLLM → Modell

Der Proxy fängt den Streaming-Response ab, sobald er vLLM verlässt. Er verändert keine Modellgewichte, ruft kein zweites LLM auf und verwendet weder Embeddings noch semantische Analysen. Alle Prüfungen sind günstig und deterministisch.

Was geprüft wird

  • Token-Obergrenzen für das Denken (konfigurierbar pro Aufwandsstufe)
  • Erkennung wiederholter Absätze
  • Gleitfenster-basierte N-Gramm-Wiederholung
  • Fingerprinting wiederholter Sätze
  • Vage Erkennung von Einstiegsmustern (erfasst Schleifen wie „Eigentlich, ich glaube, ich habe es gefunden…“)
  • Cut-und-Continue-Wiederherstellungspfad
Ad

Wiederherstellungsablauf

Wenn der Guard auslöst, tut er Folgendes:

  • Stoppt den Upstream-Stream
  • Erfasst das bisher produzierte Denken
  • Sendet die Anfrage erneut mit diesem Denken als vorherigem Assistentenkontext
  • Deaktiviert das Denken für die Fortsetzung
  • Führt die Nutzungsstatistiken von Phase 1 und Phase 2 zusammen

Da das vLLM-Prefix-Caching bereits aktiv ist, ist die Fortsetzung praktisch nahtlos. Phase 2 startet normalerweise mit ~50–100ms TTFT, sodass der Client sieht, wie das Denken direkt in die endgültige Antwort übergeht, anstatt zu hängen.

Beobachtbarkeit

Der Proxy protokolliert jede Auslösung mit:

  • Ob der Guard ausgelöst hat
  • Auslösegrund
  • Verwendete Token-Obergrenze
  • Anzahl der Denk-Token
  • Zusammengeführte Gesamtnutzung
  • Stream-Ende-Metadaten

Ergebnis

Vorher: gelegentlich 2000+ Token-Denkblöcke, die zu nichts führten. Nachher: Das Modell denkt immer noch, wenn es nützlich ist, aber ausuferndes Denken wird abgeschnitten und in eine Antwort umgeleitet. Der Autor beschreibt es als „Proxy-Level-Sicherheitsgurt für lokale LLM-Inferenz“.

Keine Modell-Chirurgie, keine zusätzlichen LLM-Aufrufe – nur Stream-Interception, Token-Zählung, Schleifenerkennung und ein sauberer Wiederherstellungspfad. Der Guard wurde Ende-zu-Ende durch den Live-Proxy gegen echte Trace-Logs validiert.

📖 Vollständige Quelle lesen: r/LocalLLaMA

Ad

👀 Siehe auch

Outworked v0.3.0 fügt iMessage-Unterstützung, einen integrierten Browser und Terminplanung für Claude Code-Agents hinzu.
Werkzeuge

Outworked v0.3.0 fügt iMessage-Unterstützung, einen integrierten Browser und Terminplanung für Claude Code-Agents hinzu.

Outworked v0.3.0 führt iMessage-Kanalunterstützung für die Agentenkommunikation ein, einen integrierten Browser für Web-Interaktionen, Zeitplanung via Cron, Tunneling zur lokalen Freigabe und erweiterte MCP/Skills-Unterstützung. Die Desktop-App orchestriert Claude-Code-Agenten als Team, um Codierungsaufgaben, Web-Recherchen und automatisierte Workflows zu bewältigen.

OpenClawRadar
Das Snip-Tool ermöglicht visuelle Kommunikation mit KI-Codierungsagenten.
Werkzeuge

Das Snip-Tool ermöglicht visuelle Kommunikation mit KI-Codierungsagenten.

Snip ist ein kostenloses Tool, das Entwicklern ermöglicht, Screenshots zu erstellen, zu kommentieren und zu zeichnen, um KI-Agenten visuell zu zeigen, was sie meinen, während Agenten Diagramme generieren oder Bilder direkt über CLI oder MCP laden können. Läuft derzeit auf Apple Silicon Macs mit Mermaid-Diagrammunterstützung, HTML-Unterstützung ist in Arbeit.

OpenClawRadar
Open-Source-kuratierte Sammlung von OpenClaw-Ressourcen vorgestellt
Werkzeuge

Open-Source-kuratierte Sammlung von OpenClaw-Ressourcen vorgestellt

Entdecken Sie eine neue Open-Source-Sammlung von OpenClaw-Ressourcen, die von der Community kuratiert wurde, um die KI-Entwicklung und -Zusammenarbeit zu verbessern.

OpenClawRadar
FixAI Dev: Ein Verbraucherrechts-Spiel mit Claude Haiku und strengen JSON-Verträgen
Werkzeuge

FixAI Dev: Ein Verbraucherrechts-Spiel mit Claude Haiku und strengen JSON-Verträgen

Ein Entwickler hat ein Browserspiel erstellt, in dem Claude Haiku als Unternehmens-KI agiert, die Verbraucheranfragen fälschlicherweise ablehnt; Spieler argumentieren mit echten Verbraucherschutzgesetzen in 37 Fällen aus der EU, den USA, dem Vereinigten Königreich und Australien. Die Architektur nutzt Haiku nur für die Sprachverarbeitung, mit serverseitiger Spiel-Logik und strengen JSON-Verträgen zwischen den Komponenten.

OpenClawRadar