Los errores del analizador de LM Studio interrumpen las llamadas a herramientas y el razonamiento de Qwen3.5

Problemas del analizador de LM Studio que afectan a modelos de razonamiento
El analizador del servidor de LM Studio contiene múltiples errores que interfieren con las llamadas a herramientas y el razonamiento en modelos como Qwen3.5 y DeepSeek-R1. Estos problemas pueden hacer que los modelos parezcan rotos cuando el problema está realmente en el analizador.
Los errores
1. El analizador busca patrones de llamadas a herramientas dentro de los bloques <think>
Cuando los modelos de razonamiento piensan sobre la sintaxis de llamadas a herramientas dentro de sus bloques <think>, el analizador de LM Studio trata esas menciones en prosa como intentos reales de llamadas a herramientas. Esto crea una trampa recursiva donde el modelo razona sobre las llamadas a herramientas, el analizador encuentra tokens con forma de llamada a herramienta en el pensamiento, el análisis falla, el error se retroalimenta al modelo y el ciclo se repite.
El modelo literalmente no puede depurar un problema de llamada a herramientas porque describir el problema lo reproduce. Un modelo dijo explícitamente "Me estoy atrapando en un bucle donde mis pensamientos sobre la sintaxis de llamadas a herramientas están siendo interpretados como marcadores reales de llamadas a herramientas" — y esa frase en sí misma activó el analizador.
Esto se reportó por primera vez como issue #453 en febrero de 2025 y permanece abierto más de un año después.
Solución temporal: Desactivar el razonamiento con {%- set enable_thinking = false %}. Esto soluciona instantáneamente el problema, permitiendo que más de 20 llamadas a herramientas consecutivas tengan éxito.
2. Registrar un segundo servidor MCP rompe el análisis de llamadas a herramientas del primero
Este error es claro y determinista. Las pruebas con lfm2-24b-a2b a temperatura=0.0 muestran:
- Solo servidor KG activo: El modelo llama correctamente a
search_nodes, el analizador reconoce los tokens<|tool_call_start|>, la herramienta se ejecuta, se devuelven los resultados. Funciona perfectamente. - Añadir servidor webfetch (ni siquiera llamarlo): El modelo emite
<|tool_call_start|>[web_search(...)]<|tool_call_end|>como texto sin formato en el chat. Los tokens especiales ya no son reconocidos. La herramienta nunca se ejecuta.
El mero registro de un segundo servidor MCP — sin llamarlo — cambia cómo el analizador maneja las llamadas a herramientas del primer servidor. Mismo modelo, mismo prompt, mismo servidor objetivo. Solo una variable cambiada.
Solución temporal: Registrar solo el servidor MCP que necesitas para cada tarea. Esto es poco práctico para flujos de trabajo de agentes.
3. La división reasoning_content/content del lado del servidor produce respuestas vacías que reportan éxito
Esto afecta a todos los que usan modelos de razonamiento a través de la API, ya sea que usen llamadas a herramientas o no. Al enviar un prompt simple a Qwen3.5-35b-a3b vía /v1/chat/completions pidiéndole que liste etiquetas XML usadas para razonamiento, el servidor devolvió:
{
"content": "",
"reasoning_content": "[3099 tokens de deliberación detallada]",
"finish_reason": "stop"
}
El modelo hizo un trabajo extenso — 3099 tokens de razonamiento — pero quedó atrapado en un bucle de deliberación dentro de <think> y nunca produjo salida en el campo content. El servidor devolvió finish_reason: "stop" con content vacío, reportando éxito.
Esto significa:
- Cada conjunto de evaluación que verifica
finish_reason == "stop"acepta silenciosamente respuestas vacías - Cada framework de agentes propaga cadenas vacías aguas abajo
- Cada usuario ve una respuesta en blanco y concluye que el modelo está roto
- El razonamiento real está atrapado en
reasoning_content— el modelo hizo un trabajo real que nadie ve a menos que verifique explícitamente ese campo
Esto es del lado del servidor, no un error de la interfaz de usuario, confirmado al inspeccionar la respuesta cruda de la API y el registro del servidor de LM Studio. La división reasoning_content/content ocurre antes de que la respuesta llegue a cualquier cliente.
Interacción de errores
Estos no son problemas independientes. Interactúan para crear problemas sistémicos con las llamadas a herramientas y el razonamiento en LM Studio.
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

Marco para Compañeros de IA en Slack, Operado Completamente desde Claude Code
ginnie-agents es un framework de código abierto para ejecutar agentes de IA autónomos con identidades de Slack, memoria de tres niveles, rutinas cron y horarios laborales, todo configurado y operado a través de Claude Code. Requiere Claude Code Max, Docker, Node 22+ y un workspace de Slack con permisos para crear apps.

El formato WCY reduce la sobrecarga de tokens en LLM entre un 50 y 71% e incorpora marcadores estructurales de "no lo sé".
WCY (Observar → Computar → Producir) es un formato orientado a líneas que reduce la sobrecarga de tokens JSON en un 50-71% e introduce marcadores estructurales '?' para que los LLM indiquen incertidumbre durante el razonamiento. El formato no requiere ajuste fino—solo tres ejemplos de pocas muestras.

Nyx: Plataforma de Pruebas Autónomas para Agentes de IA
Nyx es un sistema de pruebas de caja negra que examina agentes de IA en busca de modos de fallo como errores lógicos, fallos de razonamiento y vulnerabilidades de seguridad mediante conversaciones adaptativas de múltiples turnos. Detecta en menos de 10 minutos lo que las auditorías manuales tardan horas en revelar.
Enjambre de Espinas: Sistema de IA Multiagente en Lienzo Visual para Proyectos sin Programación
Spine Swarm es un sistema multiagente que funciona en un lienzo visual infinito para completar proyectos complejos que no requieren codificación, como análisis competitivo, modelado financiero, auditorías SEO, presentaciones de lanzamiento y prototipos interactivos. El sistema utiliza bloques como abstracciones sobre los modelos de IA que pueden conectarse para pasar contexto entre diferentes tipos de modelos.