Qwen 3.5 27B 에이전트 신뢰성 향상: 작은 모델로 세션 재설정 해결

문제: 부정확한 출력이 장기 실행 에이전트를 저하시킴

Mac Studio M4(36GB)에서 Qwen 3.5 27B(4-bit, oMLX)를 가정용 에이전트로 사용하여 OpenClaw를 로컬에서 실행할 때, 모델은 시간이 지남에 따라 능력이 떨어지는 것이 아니라 부정확해졌습니다. 구체적인 문제는 다음과 같습니다:

구조화된 도구 사용 대신 원시 텍스트로 유출되는 도구 호출
최종 응답에 계획 사고가 스며듦
사용자에게 도구 결과와 정책 텍스트를 그대로 반복
잘못된 형식의 출력이 컨텍스트를 오염시켜 이후 각 차례마다 성능 저하를 초래

핵심 문제는 능력이 아니라 런타임 위생이었습니다: 모델은 무엇을 해야 할지 알았지만 OpenClaw 런타임 환경 내에서 적절한 행동을 수행하는 데 실패했습니다.

해결책: 런타임 위생을 위한 4계층 아키텍처

개발자는 단순히 더 큰 모델을 사용하는 것보다 더 효과적인 4계층 접근 방식을 구현했습니다:

요약: 무손실 클로(DAG 기반, freshTailCount=12, contextThreshold=0.60)를 통한 컨텍스트 압축. 이는 가장 큰 개선을 제공했습니다.
보안관: 잘못된 형식의 응답이 OpenClaw에 들어가기 전에 잡아내는 정규식 및 휴리스틱 검사. 이는 유출된 도구 마크업, 계획자 잡담, 원시 JSON이 지속적인 컨텍스트가 되는 것을 방지합니다.
판사: 경계선 출력을 '유효한 최종 답변' 대 '쓰레기'로 분류하는 더 작고 저렴한 모델. 이 모델은 지능을 위한 것이 아니라 런타임 위생을 위한 것입니다—두 번째 뇌가 아니라 면역 체계입니다. 또한 무손실 클로를 위한 모든 요약을 처리합니다.
오젬픽(내부 명칭): 모델이 향후 차례에 사용자 요청, 최종 답변, 압축된 도구 파생 사실만 다시 읽도록 보장하는 공격적인 메모리 정리—계획자 잡담, 원시 도구 JSON, 재시도 아티팩트 또는 정책 자체 대화는 제외됩니다.

왜 이것이 더 큰 모델 사용을 능가하는가

단일 모델은 작업을 해결하고, 형식 규율을 유지하고, 컨텍스트 일관성을 관리하고, 자체 출력으로 스스로를 오염시키는 것을 피하며, 나쁜 출력에서 회복해야 합니다—특히 로컬 양자화 수준에서는 더욱 어렵습니다. 주 모델이 작업을 수행하고 더 작은 모델이 런타임 위생을 유지하도록 책임을 분리하는 것이 더 많은 매개변수를 추가하는 것보다 더 효과적인 것으로 입증되었습니다.