Escudo de Razonamiento: Detección de Bucles a Nivel de Proxy para Inferencia Local de LLM

✍️ OpenClawRadar📅 Publicado: 30 de abril de 2026🔗 Source
Escudo de Razonamiento: Detección de Bucles a Nivel de Proxy para Inferencia Local de LLM
Ad

Un desarrollador que ejecuta Qwen3.6 MoE detrás de un proxy vLLM se encontró con un problema de confiabilidad común: bucles de razonamiento descontrolados donde el modelo se repite a sí mismo dentro de un bloque de razonamiento, quemando tokens y bloqueando agentes. A 180+ tokens/segundo, incluso un bucle de 20–30 segundos desperdicia tiempo de GPU y bloquea solicitudes de cliente. Construyeron un guardia ligero que vive en la capa de proxy y aplica comprobaciones deterministas en la salida de streaming antes de que llegue al cliente.

Arquitectura

Cliente → Proxy → vLLM → Modelo

El proxy intercepta la respuesta de streaming cuando sale de vLLM. No modifica los pesos del modelo, llama a un segundo LLM, ni utiliza incrustaciones o análisis semántico. Todas las comprobaciones son económicas y deterministas.

Qué comprueba

  • Límites de tokens de razonamiento (configurables por nivel de esfuerzo)
  • Detección de párrafos repetidos
  • Repetición de n-gramas con ventana deslizante
  • Huella de oraciones repetidas
  • Detección difusa de patrones de apertura (atrapa bucles como "En realidad, creo que lo encontré…")
  • Ruta de recuperación de cortar y continuar
Ad

Flujo de recuperación

Cuando el guardia se activa, hace lo siguiente:

  • Detiene el flujo ascendente
  • Captura el razonamiento producido hasta ahora
  • Reenvía la solicitud con ese razonamiento incorporado como contexto de asistente previo
  • Desactiva el pensamiento para la continuación
  • Combina las estadísticas de uso de la fase 1 y fase 2

Debido a que el almacenamiento en caché de prefijo de vLLM ya está activo, la continuación es prácticamente sin interrupciones. La fase 2 generalmente se reanuda con ~50–100ms de TTFT, por lo que el cliente ve el razonamiento fluir directamente en la respuesta final en lugar de quedarse colgado.

Observabilidad

El proxy registra cada activación con:

  • Si el guardia se disparó
  • Motivo de activación
  • Límite de tokens utilizado
  • Recuento de tokens de razonamiento
  • Uso total combinado
  • Metadatos de fin de flujo

Resultado

Antes: bloques de razonamiento ocasionales de más de 2000 tokens que no llevaban a ninguna parte. Después: el modelo todavía razona cuando es útil, pero el pensamiento descontrolado se corta y se redirige a una respuesta. El autor lo describe como un "cinturón de seguridad a nivel de proxy para inferencia local de LLM".

Sin cirugía del modelo, sin llamadas adicionales al LLM — solo interceptación de flujo, conteo de tokens, detección de bucles y una ruta de recuperación limpia. El guardia se ha validado de extremo a extremo a través del proxy en vivo con registros de trazas reales.

📖 Lee la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Omnara: Ejecuta Código Claude y Codex desde Cualquier Lugar
Herramientas

Omnara: Ejecuta Código Claude y Codex desde Cualquier Lugar

Omnara es un IDE web y móvil que permite a los desarrolladores ejecutar e interactuar con sesiones de Claude Code y Codex desde cualquier lugar, con funciones como sincronización en la nube y un agente de voz.

OpenClawRadar
Kit de Gestión de Contexto Cowork Resuelve el Problema de Sobrecarga de Archivos de Claude
Herramientas

Kit de Gestión de Contexto Cowork Resuelve el Problema de Sobrecarga de Archivos de Claude

Un desarrollador creó un kit de gestión de contexto para Cowork después de que Claude AI leyera los 462 archivos en su carpeta de proyecto, causando problemas de rendimiento y contradicciones. La solución incluye instrucciones globales, un sistema de archivos de manifiesto y una habilidad de Cowork para priorizar documentos relevantes.

OpenClawRadar
Steerling-8B: Un modelo de lenguaje interpretable con atribución a nivel de token
Herramientas

Steerling-8B: Un modelo de lenguaje interpretable con atribución a nivel de token

Guide Labs lanzó Steerling-8B, un modelo de lenguaje de 8 mil millones de parámetros entrenado en 1.35 billones de tokens que puede rastrear cualquier token generado hasta el contexto de entrada, conceptos comprensibles para humanos y fuentes de datos de entrenamiento. El modelo logra un rendimiento competitivo con modelos entrenados con 2-7× más datos.

OpenClawRadar
Sé Mi Mayordomo: Tubería Multi-Agente para Verificación de Código con IA
Herramientas

Sé Mi Mayordomo: Tubería Multi-Agente para Verificación de Código con IA

Be My Butler es una canalización multiagente de código abierto donde diferentes modelos de IA revisan el código de los demás mediante verificación ciega. El sistema aborda el problema de que los agentes de IA informen incorrectamente que su propio código es funcional.

OpenClawRadar