Escudo de Razonamiento: Detección de Bucles a Nivel de Proxy para Inferencia Local de LLM

Un desarrollador que ejecuta Qwen3.6 MoE detrás de un proxy vLLM se encontró con un problema de confiabilidad común: bucles de razonamiento descontrolados donde el modelo se repite a sí mismo dentro de un bloque de razonamiento, quemando tokens y bloqueando agentes. A 180+ tokens/segundo, incluso un bucle de 20–30 segundos desperdicia tiempo de GPU y bloquea solicitudes de cliente. Construyeron un guardia ligero que vive en la capa de proxy y aplica comprobaciones deterministas en la salida de streaming antes de que llegue al cliente.
Arquitectura
Cliente → Proxy → vLLM → Modelo
El proxy intercepta la respuesta de streaming cuando sale de vLLM. No modifica los pesos del modelo, llama a un segundo LLM, ni utiliza incrustaciones o análisis semántico. Todas las comprobaciones son económicas y deterministas.
Qué comprueba
- Límites de tokens de razonamiento (configurables por nivel de esfuerzo)
- Detección de párrafos repetidos
- Repetición de n-gramas con ventana deslizante
- Huella de oraciones repetidas
- Detección difusa de patrones de apertura (atrapa bucles como "En realidad, creo que lo encontré…")
- Ruta de recuperación de cortar y continuar
Flujo de recuperación
Cuando el guardia se activa, hace lo siguiente:
- Detiene el flujo ascendente
- Captura el razonamiento producido hasta ahora
- Reenvía la solicitud con ese razonamiento incorporado como contexto de asistente previo
- Desactiva el pensamiento para la continuación
- Combina las estadísticas de uso de la fase 1 y fase 2
Debido a que el almacenamiento en caché de prefijo de vLLM ya está activo, la continuación es prácticamente sin interrupciones. La fase 2 generalmente se reanuda con ~50–100ms de TTFT, por lo que el cliente ve el razonamiento fluir directamente en la respuesta final en lugar de quedarse colgado.
Observabilidad
El proxy registra cada activación con:
- Si el guardia se disparó
- Motivo de activación
- Límite de tokens utilizado
- Recuento de tokens de razonamiento
- Uso total combinado
- Metadatos de fin de flujo
Resultado
Antes: bloques de razonamiento ocasionales de más de 2000 tokens que no llevaban a ninguna parte. Después: el modelo todavía razona cuando es útil, pero el pensamiento descontrolado se corta y se redirige a una respuesta. El autor lo describe como un "cinturón de seguridad a nivel de proxy para inferencia local de LLM".
Sin cirugía del modelo, sin llamadas adicionales al LLM — solo interceptación de flujo, conteo de tokens, detección de bucles y una ruta de recuperación limpia. El guardia se ha validado de extremo a extremo a través del proxy en vivo con registros de trazas reales.
📖 Lee la fuente completa: r/LocalLLaMA
👀 Ver también

Omnara: Ejecuta Código Claude y Codex desde Cualquier Lugar
Omnara es un IDE web y móvil que permite a los desarrolladores ejecutar e interactuar con sesiones de Claude Code y Codex desde cualquier lugar, con funciones como sincronización en la nube y un agente de voz.

Kit de Gestión de Contexto Cowork Resuelve el Problema de Sobrecarga de Archivos de Claude
Un desarrollador creó un kit de gestión de contexto para Cowork después de que Claude AI leyera los 462 archivos en su carpeta de proyecto, causando problemas de rendimiento y contradicciones. La solución incluye instrucciones globales, un sistema de archivos de manifiesto y una habilidad de Cowork para priorizar documentos relevantes.

Steerling-8B: Un modelo de lenguaje interpretable con atribución a nivel de token
Guide Labs lanzó Steerling-8B, un modelo de lenguaje de 8 mil millones de parámetros entrenado en 1.35 billones de tokens que puede rastrear cualquier token generado hasta el contexto de entrada, conceptos comprensibles para humanos y fuentes de datos de entrenamiento. El modelo logra un rendimiento competitivo con modelos entrenados con 2-7× más datos.

Sé Mi Mayordomo: Tubería Multi-Agente para Verificación de Código con IA
Be My Butler es una canalización multiagente de código abierto donde diferentes modelos de IA revisan el código de los demás mediante verificación ciega. El sistema aborda el problema de que los agentes de IA informen incorrectamente que su propio código es funcional.