Proxy Guard: Detección de Bucles de Razonamiento en LLM Local

Un desarrollador que ejecuta Qwen3.6 MoE detrás de un proxy vLLM se encontró con un problema de confiabilidad común: bucles de razonamiento descontrolados donde el modelo se repite a sí mismo dentro de un bloque de razonamiento, quemando tokens y bloqueando agentes. A 180+ tokens/segundo, incluso un bucle de 20–30 segundos desperdicia tiempo de GPU y bloquea solicitudes de cliente. Construyeron un guardia ligero que vive en la capa de proxy y aplica comprobaciones deterministas en la salida de streaming antes de que llegue al cliente.

Arquitectura

Cliente → Proxy → vLLM → Modelo

El proxy intercepta la respuesta de streaming cuando sale de vLLM. No modifica los pesos del modelo, llama a un segundo LLM, ni utiliza incrustaciones o análisis semántico. Todas las comprobaciones son económicas y deterministas.

Qué comprueba

Límites de tokens de razonamiento (configurables por nivel de esfuerzo)
Detección de párrafos repetidos
Repetición de n-gramas con ventana deslizante
Huella de oraciones repetidas
Detección difusa de patrones de apertura (atrapa bucles como "En realidad, creo que lo encontré…")
Ruta de recuperación de cortar y continuar

Flujo de recuperación

Cuando el guardia se activa, hace lo siguiente:

Detiene el flujo ascendente
Captura el razonamiento producido hasta ahora
Reenvía la solicitud con ese razonamiento incorporado como contexto de asistente previo
Desactiva el pensamiento para la continuación
Combina las estadísticas de uso de la fase 1 y fase 2

Debido a que el almacenamiento en caché de prefijo de vLLM ya está activo, la continuación es prácticamente sin interrupciones. La fase 2 generalmente se reanuda con ~50–100ms de TTFT, por lo que el cliente ve el razonamiento fluir directamente en la respuesta final en lugar de quedarse colgado.

Observabilidad

El proxy registra cada activación con:

Si el guardia se disparó
Motivo de activación
Límite de tokens utilizado
Recuento de tokens de razonamiento
Uso total combinado
Metadatos de fin de flujo

Resultado

Antes: bloques de razonamiento ocasionales de más de 2000 tokens que no llevaban a ninguna parte. Después: el modelo todavía razona cuando es útil, pero el pensamiento descontrolado se corta y se redirige a una respuesta. El autor lo describe como un "cinturón de seguridad a nivel de proxy para inferencia local de LLM".

Sin cirugía del modelo, sin llamadas adicionales al LLM — solo interceptación de flujo, conteo de tokens, detección de bucles y una ruta de recuperación limpia. El guardia se ha validado de extremo a extremo a través del proxy en vivo con registros de trazas reales.

📖 Lee la fuente completa: r/LocalLLaMA