Garde du raisonnement : Détection de boucle au niveau proxy pour l'inférence LLM locale

✍️ OpenClawRadar📅 Publié: April 30, 2026🔗 Source
Garde du raisonnement : Détection de boucle au niveau proxy pour l'inférence LLM locale
Ad

Un développeur exécutant Qwen3.6 MoE derrière un proxy vLLM a rencontré un problème de fiabilité courant : des boucles de raisonnement incontrôlées où le modèle se répète à l'intérieur d'un bloc de raisonnement, brûlant des jetons et bloquant les agents. À 180+ jetons/seconde, même une boucle de 20 à 30 secondes gaspille du temps GPU et bloque les requêtes des clients. Ils ont construit un gardien léger qui réside dans la couche proxy et applique des contrôles déterministes sur le flux de sortie avant qu'il n'atteigne le client.

Architecture

Client → Proxy → vLLM → Modèle

Le proxy intercepte la réponse en streaming à sa sortie de vLLM. Il ne modifie pas les poids du modèle, n'appelle pas un second LLM, et n'utilise ni embeddings ni analyse sémantique. Tous les contrôles sont peu coûteux et déterministes.

Ce qu'il vérifie

  • Plafonds de jetons de raisonnement (configurables par niveau d'effort)
  • Détection de paragraphes répétés
  • Répétition de n-grammes par fenêtre glissante
  • Empreintes de phrases répétées
  • Détection floue de motifs d'ouverture (capture des boucles comme « En fait, je pense que je l'ai trouvé… »)
  • Chemin de récupération couper-et-continuer
Ad

Flux de récupération

Lorsque le gardien se déclenche, il :

  • Arrête le flux en amont
  • Capture le raisonnement produit jusqu'à présent
  • Réémet la requête avec ce raisonnement intégré comme contexte d'assistant antérieur
  • Désactive la réflexion pour la suite
  • Fusionne les statistiques d'utilisation des phases 1 et 2

Comme la mise en cache de préfixe vLLM est déjà active, la suite est effectivement transparente. La phase 2 reprend généralement avec un TTFT d'environ 50 à 100 ms, de sorte que le client voit le raisonnement s'écouler directement dans la réponse finale au lieu de bloquer.

Observabilité

Le proxy enregistre chaque déclenchement avec :

  • Si le gardien s'est déclenché
  • Raison du déclenchement
  • Plafond de jetons utilisé
  • Nombre de jetons de raisonnement
  • Utilisation totale fusionnée
  • Métadonnées de fin de flux

Résultat

Avant : des blocs de raisonnement occasionnels de 2000+ jetons qui ne menaient nulle part. Après : le modèle raisonne encore lorsque c'est utile, mais les pensées incontrôlées sont coupées et redirigées vers une réponse. L'auteur le décrit comme une « ceinture de sécurité au niveau proxy pour l'inférence LLM locale ».

Pas de chirurgie du modèle, pas d'appels LLM supplémentaires — juste une interception de flux, un comptage de jetons, une détection de boucle et un chemin de récupération propre. Le gardien a été validé de bout en bout via le proxy en direct avec des journaux de traces réels.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

yoyo : Serveur MCP local pour les lectures de codebase ancrées et les écritures sécurisées avec Claude Code
Tools

yoyo : Serveur MCP local pour les lectures de codebase ancrées et les écritures sécurisées avec Claude Code

yoyo est un serveur MCP local open-source qui fournit aux agents de codage comme Claude Code des lectures de dépôt ancrées et des écritures protégées dans 16 langages, dont Rust, Go, Python et TypeScript. Il empêche les modifications cassées de passer silencieusement en renvoyant une sortie guard_failure lisible par machine et en activant retry_plan pour des réparations ciblées.

OpenClawRadar
Application de Bureau Claude Fonction de Collaboration Permet la Communication IA-à-IA via Google Docs Partagés
Tools

Application de Bureau Claude Fonction de Collaboration Permet la Communication IA-à-IA via Google Docs Partagés

Les utilisateurs de Claude ont réussi à mettre en œuvre une communication Claude-à-Claude en utilisant la nouvelle fonction de collaboration dans l'application de bureau, avec deux agents d'IA lisant et écrivant dans un Google Doc partagé lors d'un dialogue structuré en cinq échanges.

OpenClawRadar
Clawdex : Un répertoire pour suivre les dérivés et forks d'OpenClaw
Tools

Clawdex : Un répertoire pour suivre les dérivés et forks d'OpenClaw

Clawdex est un répertoire listant 18 projets liés à OpenClaw répartis en trois niveaux, avec des données sur les étoiles, le langage et les étiquettes de catégorie. Le projet est basé sur les PR, nécessitant que les contributeurs forkent le dépôt, ajoutent un fichier YAML dans /src/data/projects/ et ouvrent une pull request.

OpenClawRadar
Holaboss vise à résoudre le déploiement d'agents locaux portables.
Tools

Holaboss vise à résoudre le déploiement d'agents locaux portables.

Holaboss est un projet open-source qui traite l'agent IA comme un artefact portable avec un espace de travail par agent, des compétences/applications locales, une mémoire persistante et un runtime qui peut être empaqueté séparément de l'application de bureau. Il prend en charge des piles de modèles locales comme Ollama et nécessite Node.js 22+ sur les machines cibles.

OpenClawRadar