Qwen3.6-27B를 로컬 추론 계층으로 사용: 2주 멀티 에이전트 테스트 결과

한 개발자가 멀티 에이전트 오케스트레이터에서 Claude를 Qwen3.6-27B로 교체하여 2주 동안 단일 RTX 3090에서 전적으로 실행했습니다. 목표는 명확했습니다: 로컬 모델이 실제 코딩 워크플로우에서 리드/매니저/서브 에이전트 루프의 추론 계층으로 작동할 수 있는지 테스트하는 것. 결과는 클라우드 비용 절감을 고려하는 모든 사람에게 확실한 수치를 제공합니다.
설정 및 기준
- 하드웨어: RTX 3090, 24GB VRAM
- 모델: Q3.6-27B, Q6_K 양자화 (~22GB 온-GPU), 유효 컨텍스트 32k
- 추론 엔진: Ollama
- 오케스트레이터: 구조화된 JSON 계획, 계획 승인 모달, 서브 에이전트 완료 후 자동 검토 패스가 있는 멀티 에이전트 시스템
- 워크로드: 두 개의 실제 저장소에 걸친 47개의 다단계 코딩 워크플로우
작동한 부분 (추론 계층)
계획 생성. Qwen3.6은 이러한 작업에서 Claude만큼 잘 다단계 계획을 생성했습니다. 약간 더 보수적입니다 — 원치 않는 리팩토링 제안이 더 적음 — 하지만 프롬프트 조정 후 약 95%의 경우 일관되고 스키마에 적합했습니다. 나머지 5%는 단일 재프롬프트로 수정 가능했습니다.
메모리 추출. 6턴마다 Mem0 스타일의 사실 추출이 잘 작동했습니다. Qwen은 Claude가 추출하는 것과 동일한 사실(예: "사용자가 '이유'를 설명하지 않는 한 주석을 원하지 않음")을 추출하여 Qdrant에 깔끔하게 저장했습니다.
서브 에이전트 출력 자동 검토. 첫 번째 Qwen 인스턴스의 코드를 검토하는 두 번째 Qwen 인스턴스는 동일한 세트에서 Claude의 검토가 발견한 버그의 약 60%를 잡았습니다. 덜 적극적이지만 여전히 유용하고 무료입니다.
문제가 발생한 부분
도구 호출 신뢰성. Qwen3.6의 JSON 도구 호출 출력은 47개 작업에서 약 12%의 형식 오류율을 보였습니다. Claude는 동일한 워크로드에서 약 0.5%였습니다. 오류는 잘못된 JSON이 아니라 잘못된 필드 이름, 잘못된 유형, 환각된 도구 시그니처였습니다. Outlines 또는 엄격한 출력 모드를 사용하면 오류가 줄었지만 완전히 제거되지는 않았습니다.
긴 컨텍스트 드리프트. 누적 세션 컨텍스트가 약 14k 토큰을 넘으면 Qwen은 결정을 잘못 기억하기 시작했습니다(예: "Postgres를 사용하라고 하셨습니다"라고 반대되는 말을 한 경우). 실질적인 한계는 약 12k 토큰이며, 그 후에는 요약 및 재설정이 필요합니다.
연쇄 실패 처리. 서브 에이전트가 실패했을 때, Claude의 플래너는 일반적으로 이를 인지하고 재계획했습니다. Qwen은 때때로 서브 에이전트가 성공했다고 가정하고 이후 단계를 생성했습니다. 47회 실행에서 3번의 연쇄 환각 — 계획 게이팅이 있으면 치명적이지 않지만, 없으면 문제가 됩니다.
실용적 함의
개발자의 결론: "Qwen3.6-27B는 오늘날 로컬 멀티 에이전트 시스템에서 실행 가능한 추론 계층입니다. 그러나 실행 계층으로는 적합하지 않습니다." 로컬 전용 에이전트를 구축하는 경우 다음이 필요합니다:
- 도구 호출 경계에서 구조화된 출력 강제(Outlines, lm-format-enforcer, 또는 추론 엔진의 문법 모드)
- 계획 승인 게이팅으로 12% 형식 오류가 실제 파일 쓰기에 도달하지 않도록 함
- 실패 시 재계획 로직 — 모델 자체가 연쇄 실패를 처리하도록 신뢰할 수 없음
12% 도구 호출 오류 격차는 주목해야 할 지표입니다. Qwen3.6 또는 다음 로컬 모델이 이 지표에서 약 2%에 도달하면, 에이전트 루프에서 클라우드 추론을 사용해야 하는 이유가 크게 약해집니다.
📖 전체 소스 읽기: r/LocalLLaMA
👀 See Also

SprintiQ: Claude Code를 위한 오픈소스 스프린트 계획
SprintiQ는 Claude Code를 위한 오케스트레이션 계층 역할을 하는 오픈소스 애자일 플랫폼으로, AI 기반 사용자 스토리 생성, 스프린트 계획, 속도 추적, 그리고 git 활동을 스프린트에 실시간으로 동기화하는 CLI를 제공합니다.

LLM 에이전트를 위한 복잡한 검색 파이프라인을 간단한 git 쉘 명령어로 대체하기
한 개발자가 AI 에이전트 검색 파이프라인(sentence-transformers, rank-bm25, 2단계 LLM 파이프라인) 전체를 git 저장소에 대해 읽기 전용 셸 명령을 실행할 수 있는 단일 도구로 교체하여 Docker 이미지 크기를 약 3GB 줄이고 타임아웃 문제를 해결했습니다.

Cowork vs. Claude Chat: 문서 추출 정확도 비교
한 개발자가 140페이지 이상의 금융 PDF에서 데이터를 추출하기 위해 동일한 프롬프트를 사용해 Claude.ai 채팅과 Cowork을 테스트했습니다. 채팅은 150개 이상의 데이터 포인트에서 자체 수정과 오류 없이 기관급 결과를 산출한 반면, Cowork은 조정 항목을 조작하고 단위 수를 반대로 계산하며 전년도 열이 오염되었습니다.

무료 MCP로 클로드가 구글 서치 콘솔 데이터를 자동 분석하게 하세요
무료 MCP(Model Context Protocol) 서버를 사용하면 클로드가 접근 권한이 있는 모든 사이트의 Google Search Console 데이터를 직접 조회할 수 있습니다. 수동으로 CSV를 내보낼 필요 없이 검색어, 페이지, 클릭수, 노출수, CTR, 위치 등을 물어보세요.