Détection de boucle LLM : Garde proxy avec plafonds de jetons et n-grammes

Un développeur exécutant Qwen3.6 MoE derrière un proxy vLLM a rencontré un problème de fiabilité courant : des boucles de raisonnement incontrôlées où le modèle se répète à l'intérieur d'un bloc de raisonnement, brûlant des jetons et bloquant les agents. À 180+ jetons/seconde, même une boucle de 20 à 30 secondes gaspille du temps GPU et bloque les requêtes des clients. Ils ont construit un gardien léger qui réside dans la couche proxy et applique des contrôles déterministes sur le flux de sortie avant qu'il n'atteigne le client.

Architecture

Client → Proxy → vLLM → Modèle

Le proxy intercepte la réponse en streaming à sa sortie de vLLM. Il ne modifie pas les poids du modèle, n'appelle pas un second LLM, et n'utilise ni embeddings ni analyse sémantique. Tous les contrôles sont peu coûteux et déterministes.

Ce qu'il vérifie

Plafonds de jetons de raisonnement (configurables par niveau d'effort)
Détection de paragraphes répétés
Répétition de n-grammes par fenêtre glissante
Empreintes de phrases répétées
Détection floue de motifs d'ouverture (capture des boucles comme « En fait, je pense que je l'ai trouvé… »)
Chemin de récupération couper-et-continuer

Flux de récupération

Lorsque le gardien se déclenche, il :

Arrête le flux en amont
Capture le raisonnement produit jusqu'à présent
Réémet la requête avec ce raisonnement intégré comme contexte d'assistant antérieur
Désactive la réflexion pour la suite
Fusionne les statistiques d'utilisation des phases 1 et 2

Comme la mise en cache de préfixe vLLM est déjà active, la suite est effectivement transparente. La phase 2 reprend généralement avec un TTFT d'environ 50 à 100 ms, de sorte que le client voit le raisonnement s'écouler directement dans la réponse finale au lieu de bloquer.

Observabilité

Le proxy enregistre chaque déclenchement avec :

Si le gardien s'est déclenché
Raison du déclenchement
Plafond de jetons utilisé
Nombre de jetons de raisonnement
Utilisation totale fusionnée
Métadonnées de fin de flux

Résultat

Avant : des blocs de raisonnement occasionnels de 2000+ jetons qui ne menaient nulle part. Après : le modèle raisonne encore lorsque c'est utile, mais les pensées incontrôlées sont coupées et redirigées vers une réponse. L'auteur le décrit comme une « ceinture de sécurité au niveau proxy pour l'inférence LLM locale ».

Pas de chirurgie du modèle, pas d'appels LLM supplémentaires — juste une interception de flux, un comptage de jetons, une détection de boucle et un chemin de récupération propre. Le gardien a été validé de bout en bout via le proxy en direct avec des journaux de traces réels.

📖 Lire la source complète : r/LocalLLaMA

Garde du raisonnement : Détection de boucle au niveau proxy pour l'inférence LLM locale

Architecture

Ce qu'il vérifie

Flux de récupération

Observabilité

Résultat

👀 See Also

Validation du modèle d'aptitude à auto-évolution : résultats d'une expérience en 5 tours

Compétences en recherche académique pour Claude Code : un pipeline humain-dans-la-boucle pour la rédaction d'articles

SkyClaw ajoute une configuration de clé API chiffrée basée sur le chat pour les agents IA

Tredict MCP Server Permet à Claude de Créer et de Transmettre des Plans d'Entraînement vers les Montres Sportives