3 errores del analizador de LM Studio rompen llamadas a herramientas y Qwen3.5

Problemas del analizador de LM Studio que afectan a modelos de razonamiento

El analizador del servidor de LM Studio contiene múltiples errores que interfieren con las llamadas a herramientas y el razonamiento en modelos como Qwen3.5 y DeepSeek-R1. Estos problemas pueden hacer que los modelos parezcan rotos cuando el problema está realmente en el analizador.

Los errores

1. El analizador busca patrones de llamadas a herramientas dentro de los bloques <think>

Cuando los modelos de razonamiento piensan sobre la sintaxis de llamadas a herramientas dentro de sus bloques <think>, el analizador de LM Studio trata esas menciones en prosa como intentos reales de llamadas a herramientas. Esto crea una trampa recursiva donde el modelo razona sobre las llamadas a herramientas, el analizador encuentra tokens con forma de llamada a herramienta en el pensamiento, el análisis falla, el error se retroalimenta al modelo y el ciclo se repite.

El modelo literalmente no puede depurar un problema de llamada a herramientas porque describir el problema lo reproduce. Un modelo dijo explícitamente "Me estoy atrapando en un bucle donde mis pensamientos sobre la sintaxis de llamadas a herramientas están siendo interpretados como marcadores reales de llamadas a herramientas" — y esa frase en sí misma activó el analizador.

Esto se reportó por primera vez como issue #453 en febrero de 2025 y permanece abierto más de un año después.

Solución temporal: Desactivar el razonamiento con {%- set enable_thinking = false %}. Esto soluciona instantáneamente el problema, permitiendo que más de 20 llamadas a herramientas consecutivas tengan éxito.

2. Registrar un segundo servidor MCP rompe el análisis de llamadas a herramientas del primero

Este error es claro y determinista. Las pruebas con lfm2-24b-a2b a temperatura=0.0 muestran:

Solo servidor KG activo: El modelo llama correctamente a search_nodes, el analizador reconoce los tokens <|tool_call_start|>, la herramienta se ejecuta, se devuelven los resultados. Funciona perfectamente.
Añadir servidor webfetch (ni siquiera llamarlo): El modelo emite <|tool_call_start|>[web_search(...)]<|tool_call_end|> como texto sin formato en el chat. Los tokens especiales ya no son reconocidos. La herramienta nunca se ejecuta.

El mero registro de un segundo servidor MCP — sin llamarlo — cambia cómo el analizador maneja las llamadas a herramientas del primer servidor. Mismo modelo, mismo prompt, mismo servidor objetivo. Solo una variable cambiada.

Solución temporal: Registrar solo el servidor MCP que necesitas para cada tarea. Esto es poco práctico para flujos de trabajo de agentes.

3. La división reasoning_content/content del lado del servidor produce respuestas vacías que reportan éxito

Esto afecta a todos los que usan modelos de razonamiento a través de la API, ya sea que usen llamadas a herramientas o no. Al enviar un prompt simple a Qwen3.5-35b-a3b vía /v1/chat/completions pidiéndole que liste etiquetas XML usadas para razonamiento, el servidor devolvió:

{
  "content": "",
  "reasoning_content": "[3099 tokens de deliberación detallada]",
  "finish_reason": "stop"
}

El modelo hizo un trabajo extenso — 3099 tokens de razonamiento — pero quedó atrapado en un bucle de deliberación dentro de <think> y nunca produjo salida en el campo content. El servidor devolvió finish_reason: "stop" con content vacío, reportando éxito.

Esto significa:

Cada conjunto de evaluación que verifica finish_reason == "stop" acepta silenciosamente respuestas vacías
Cada framework de agentes propaga cadenas vacías aguas abajo
Cada usuario ve una respuesta en blanco y concluye que el modelo está roto
El razonamiento real está atrapado en reasoning_content — el modelo hizo un trabajo real que nadie ve a menos que verifique explícitamente ese campo

Esto es del lado del servidor, no un error de la interfaz de usuario, confirmado al inspeccionar la respuesta cruda de la API y el registro del servidor de LM Studio. La división reasoning_content/content ocurre antes de que la respuesta llegue a cualquier cliente.

Interacción de errores

Estos no son problemas independientes. Interactúan para crear problemas sistémicos con las llamadas a herramientas y el razonamiento en LM Studio.

📖 Leer la fuente completa: r/LocalLLaMA

Los errores del analizador de LM Studio interrumpen las llamadas a herramientas y el razonamiento de Qwen3.5

Problemas del analizador de LM Studio que afectan a modelos de razonamiento

Los errores

1. El analizador busca patrones de llamadas a herramientas dentro de los bloques <think>

2. Registrar un segundo servidor MCP rompe el análisis de llamadas a herramientas del primero

3. La división reasoning_content/content del lado del servidor produce respuestas vacías que reportan éxito

Interacción de errores

👀 Ver también

Habilidad de autocuración de código abierto para agentes de IA que detecta y corrige fallas automáticamente.

Script de Python de 80 líneas usa Claude para generar sugerencias de enlaces internos automáticamente, reduciendo el tiempo de enlace de 2 horas a 8 minutos

Configuración de iTerm2 de 4 Paneles para CLI de Código Claude Separa Roles de IA

GitAgent: Un Estándar Abierto para Agentes de IA Portátiles en Repositorios Git