LM Studio 파서 버그로 인해 Qwen3.5 도구 호출 및 추론 기능이 중단됩니다

✍️ OpenClawRadar📅 게시일: March 2, 2026🔗 Source
LM Studio 파서 버그로 인해 Qwen3.5 도구 호출 및 추론 기능이 중단됩니다
Ad

추론 모델에 영향을 미치는 LM Studio 파서 문제

LM Studio의 서버 파서에는 Qwen3.5 및 DeepSeek-R1과 같은 모델의 도구 호출 및 추론을 방해하는 여러 버그가 포함되어 있습니다. 이러한 문제는 실제로 파서에 문제가 있음에도 모델이 고장난 것처럼 보이게 할 수 있습니다.

버그 설명

1. 파서가 <think> 블록 내부에서 도구 호출 패턴을 스캔함

추론 모델이 <think> 블록 내에서 도구 호출 구문에 대해 생각할 때, LM Studio의 파서는 해당 서술적 언급을 실제 도구 호출 시도로 처리합니다. 이로 인해 모델이 도구 호출에 대해 추론하고, 파서가 생각 속에서 도구 호출 형태의 토큰을 발견하며, 파싱이 실패하고, 오류가 모델에 다시 전달되는 순환적 함정이 생성됩니다.

모델은 도구 호출 문제를 설명하는 것 자체가 문제를 재현하기 때문에 문제를 디버깅할 수 없습니다. 한 모델은 "도구 호출 구문에 대한 제 생각이 실제 도구 호출 마커로 해석되는 루프에 빠졌습니다"라고 명시적으로 말했는데, 이 문장 자체가 파서를 트리거했습니다.

이 문제는 2025년 2월에 이슈 #453으로 처음 보고되었으며, 1년 이상이 지난 지금도 해결되지 않았습니다.

임시 해결책: {%- set enable_thinking = false %}로 추론을 비활성화하세요. 이렇게 하면 문제가 즉시 해결되어 20회 이상의 연속적인 도구 호출이 성공합니다.

2. 두 번째 MCP 서버 등록 시 첫 번째 서버의 도구 호출 파싱이 중단됨

이 버그는 명확하고 결정적입니다. temperature=0.0에서 lfm2-24b-a2b로 테스트한 결과:

  • KG 서버만 활성화: 모델이 search_nodes를 올바르게 호출하고, 파서가 <|tool_call_start|> 토큰을 인식하며, 도구가 실행되고 결과가 반환됩니다. 완벽하게 작동합니다.
  • webfetch 서버 추가 (호출하지 않음): 모델이 채팅에서 <|tool_call_start|>[web_search(...)]<|tool_call_end|>를 원시 텍스트로 출력합니다. 특수 토큰이 더 이상 인식되지 않습니다. 도구는 실행되지 않습니다.

두 번째 MCP 서버를 등록하는 것만으로도 — 호출하지 않더라도 — 파서가 첫 번째 서버의 도구 호출을 처리하는 방식이 변경됩니다. 동일한 모델, 동일한 프롬프트, 동일한 대상 서버입니다. 단일 변수만 변경되었습니다.

임시 해결책: 각 작업에 필요한 MCP 서버만 등록하세요. 이는 에이전트 워크플로우에는 비현실적입니다.

3. 서버 측 reasoning_content/content 분할로 인해 성공을 보고하는 빈 응답 생성

이는 도구 호출 사용 여부와 관계없이 API를 통해 추론 모델을 사용하는 모든 사람에게 영향을 미칩니다. Qwen3.5-35b-a3b에 /v1/chat/completions를 통해 추론에 사용되는 XML 태그를 나열하라는 간단한 프롬프트를 보낼 때, 서버는 다음을 반환했습니다:

{
  "content": "",
  "reasoning_content": "[3099 tokens of detailed deliberation]",
  "finish_reason": "stop"
}

모델은 광범위한 작업 — 3099 토큰의 추론 — 을 수행했지만, <think> 내부의 심의 루프에 갇혀 content 필드에 출력을 생성하지 못했습니다. 서버는 빈 content와 함께 finish_reason: "stop"을 반환하여 성공을 보고했습니다.

이는 다음을 의미합니다:

  • finish_reason == "stop"을 확인하는 모든 평가 도구가 빈 응답을 자동으로 수락함
  • 모든 에이전트 프레임워크가 빈 문자열을 다운스트림으로 전파함
  • 모든 사용자가 빈 응답을 보고 모델이 고장났다고 결론짓음
  • 실제 추론은 reasoning_content에 갇혀 있음 — 해당 필드를 명시적으로 확인하지 않으면 아무도 볼 수 없는 실제 작업을 모델이 수행함

이는 서버 측 문제이며 UI 버그가 아닙니다. 원시 API 응답과 LM Studio 서버 로그를 검사하여 확인되었습니다. reasoning_content/content 분할은 응답이 클라이언트에 도달하기 전에 발생합니다.

Ad

버그 상호작용

이들은 독립적인 문제가 아닙니다. LM Studio에서 도구 호출 및 추론에 대한 체계적인 문제를 생성하기 위해 상호작용합니다.

📖 전체 소스 읽기: r/LocalLLaMA

Ad

👀 See Also

OpenClaw 코어브레인 플러그인: AI 코딩 에이전트를 위한 지속적 메모리
Tools

OpenClaw 코어브레인 플러그인: AI 코딩 에이전트를 위한 지속적 메모리

CoreBrain이라는 새로운 플러그인이 OpenClaw의 메모리 문제를 해결합니다. 이 플러그인은 정보를 컨텍스트 윈도우 외부의 지식 그래프에 저장하고 모든 쿼리 전에 자동으로 주입하여 도구 호출과 선택적 메모리 호출의 필요성을 없앱니다.

OpenClawRadar
Claw와 대화하기: OpenClaw 텔레그램 봇을 위한 오픈 소스 iOS 음성 인터페이스
Tools

Claw와 대화하기: OpenClaw 텔레그램 봇을 위한 오픈 소스 iOS 음성 인터페이스

OpenClaw 기반 텔레그램 봇과 음성 상호작용을 가능하게 하는 오픈 소스 iOS 앱입니다. 이 앱은 오디오를 로컬 Mac 서버로 전송하여 처리하며, 응답은 텍스트와 오디오 형태로 반환됩니다.

OpenClawRadar
지식 레이븐: Claude용 검색 가능한 지식 베이스 플러그인
Tools

지식 레이븐: Claude용 검색 가능한 지식 베이스 플러그인

Knowledge Raven은 Claude Desktop 플러그인이나 MCP 서버를 통해 Confluence, Notion, Google Drive, Dropbox, GitHub와 같은 소스에서 Claude가 문서를 검색할 수 있게 해주는 도구로, 의미론적 검색, 키워드 검색, 전체 문서 검색 기능을 제공합니다.

OpenClawRadar
비공식 Ultrahuman 링 MCP 서버 - AI 에이전트 통합용
Tools

비공식 Ultrahuman 링 MCP 서버 - AI 에이전트 통합용

커뮤니티에서 개발한 MCP 서버가 Ultrahuman Partner API를 래핑하여 AI 코딩 에이전트가 수면, HRV, 혈당, 회복 점수와 같은 링 및 CGM 지표를 구조화된 데이터 호출을 통해 직접 접근할 수 있도록 합니다.

OpenClawRadar