Qwen3.6-27B 로컬 에이전트 테스트: Claude 대비 12% 툴콜 격차

한 개발자가 멀티 에이전트 오케스트레이터에서 Claude를 Qwen3.6-27B로 교체하여 2주 동안 단일 RTX 3090에서 전적으로 실행했습니다. 목표는 명확했습니다: 로컬 모델이 실제 코딩 워크플로우에서 리드/매니저/서브 에이전트 루프의 추론 계층으로 작동할 수 있는지 테스트하는 것. 결과는 클라우드 비용 절감을 고려하는 모든 사람에게 확실한 수치를 제공합니다.

설정 및 기준

하드웨어: RTX 3090, 24GB VRAM
모델: Q3.6-27B, Q6_K 양자화 (~22GB 온-GPU), 유효 컨텍스트 32k
추론 엔진: Ollama
오케스트레이터: 구조화된 JSON 계획, 계획 승인 모달, 서브 에이전트 완료 후 자동 검토 패스가 있는 멀티 에이전트 시스템
워크로드: 두 개의 실제 저장소에 걸친 47개의 다단계 코딩 워크플로우

작동한 부분 (추론 계층)

계획 생성. Qwen3.6은 이러한 작업에서 Claude만큼 잘 다단계 계획을 생성했습니다. 약간 더 보수적입니다 — 원치 않는 리팩토링 제안이 더 적음 — 하지만 프롬프트 조정 후 약 95%의 경우 일관되고 스키마에 적합했습니다. 나머지 5%는 단일 재프롬프트로 수정 가능했습니다.

메모리 추출. 6턴마다 Mem0 스타일의 사실 추출이 잘 작동했습니다. Qwen은 Claude가 추출하는 것과 동일한 사실(예: "사용자가 '이유'를 설명하지 않는 한 주석을 원하지 않음")을 추출하여 Qdrant에 깔끔하게 저장했습니다.

서브 에이전트 출력 자동 검토. 첫 번째 Qwen 인스턴스의 코드를 검토하는 두 번째 Qwen 인스턴스는 동일한 세트에서 Claude의 검토가 발견한 버그의 약 60%를 잡았습니다. 덜 적극적이지만 여전히 유용하고 무료입니다.

문제가 발생한 부분

도구 호출 신뢰성. Qwen3.6의 JSON 도구 호출 출력은 47개 작업에서 약 12%의 형식 오류율을 보였습니다. Claude는 동일한 워크로드에서 약 0.5%였습니다. 오류는 잘못된 JSON이 아니라 잘못된 필드 이름, 잘못된 유형, 환각된 도구 시그니처였습니다. Outlines 또는 엄격한 출력 모드를 사용하면 오류가 줄었지만 완전히 제거되지는 않았습니다.

긴 컨텍스트 드리프트. 누적 세션 컨텍스트가 약 14k 토큰을 넘으면 Qwen은 결정을 잘못 기억하기 시작했습니다(예: "Postgres를 사용하라고 하셨습니다"라고 반대되는 말을 한 경우). 실질적인 한계는 약 12k 토큰이며, 그 후에는 요약 및 재설정이 필요합니다.

연쇄 실패 처리. 서브 에이전트가 실패했을 때, Claude의 플래너는 일반적으로 이를 인지하고 재계획했습니다. Qwen은 때때로 서브 에이전트가 성공했다고 가정하고 이후 단계를 생성했습니다. 47회 실행에서 3번의 연쇄 환각 — 계획 게이팅이 있으면 치명적이지 않지만, 없으면 문제가 됩니다.