더 작은 모델을 런타임 위생 계층으로 사용하면 OpenClaw 에이전트의 신뢰성이 향상됩니다.

문제: 부정확한 출력이 장기 실행 에이전트를 저하시킴
Mac Studio M4(36GB)에서 Qwen 3.5 27B(4-bit, oMLX)를 가정용 에이전트로 사용하여 OpenClaw를 로컬에서 실행할 때, 모델은 시간이 지남에 따라 능력이 떨어지는 것이 아니라 부정확해졌습니다. 구체적인 문제는 다음과 같습니다:
- 구조화된 도구 사용 대신 원시 텍스트로 유출되는 도구 호출
- 최종 응답에 계획 사고가 스며듦
- 사용자에게 도구 결과와 정책 텍스트를 그대로 반복
- 잘못된 형식의 출력이 컨텍스트를 오염시켜 이후 각 차례마다 성능 저하를 초래
핵심 문제는 능력이 아니라 런타임 위생이었습니다: 모델은 무엇을 해야 할지 알았지만 OpenClaw 런타임 환경 내에서 적절한 행동을 수행하는 데 실패했습니다.
해결책: 런타임 위생을 위한 4계층 아키텍처
개발자는 단순히 더 큰 모델을 사용하는 것보다 더 효과적인 4계층 접근 방식을 구현했습니다:
- 요약: 무손실 클로(DAG 기반, freshTailCount=12, contextThreshold=0.60)를 통한 컨텍스트 압축. 이는 가장 큰 개선을 제공했습니다.
- 보안관: 잘못된 형식의 응답이 OpenClaw에 들어가기 전에 잡아내는 정규식 및 휴리스틱 검사. 이는 유출된 도구 마크업, 계획자 잡담, 원시 JSON이 지속적인 컨텍스트가 되는 것을 방지합니다.
- 판사: 경계선 출력을 '유효한 최종 답변' 대 '쓰레기'로 분류하는 더 작고 저렴한 모델. 이 모델은 지능을 위한 것이 아니라 런타임 위생을 위한 것입니다—두 번째 뇌가 아니라 면역 체계입니다. 또한 무손실 클로를 위한 모든 요약을 처리합니다.
- 오젬픽(내부 명칭): 모델이 향후 차례에 사용자 요청, 최종 답변, 압축된 도구 파생 사실만 다시 읽도록 보장하는 공격적인 메모리 정리—계획자 잡담, 원시 도구 JSON, 재시도 아티팩트 또는 정책 자체 대화는 제외됩니다.
왜 이것이 더 큰 모델 사용을 능가하는가
단일 모델은 작업을 해결하고, 형식 규율을 유지하고, 컨텍스트 일관성을 관리하고, 자체 출력으로 스스로를 오염시키는 것을 피하며, 나쁜 출력에서 회복해야 합니다—특히 로컬 양자화 수준에서는 더욱 어렵습니다. 주 모델이 작업을 수행하고 더 작은 모델이 런타임 위생을 유지하도록 책임을 분리하는 것이 더 많은 매개변수를 추가하는 것보다 더 효과적인 것으로 입증되었습니다.
결과: 재설정 없이 지속적인 운영
이 접근 방식은 20-30분마다 /new 재설정이 필요했던 것에서 36GB RAM의 Mac Studio M4에서 API 호출 없이 완전히 로컬로 지속적인 단일 세션 운영으로 전환되었습니다.
📖 전체 Source 읽기: r/LocalLLaMA
👀 See Also

크롬에서 클로드를 사용한 의도 기반 소셜 미디어 모니터링
한 레딧 사용자가 소셜 미디어 모니터링을 자동화하기 위해 Claude를 사용하는 방법을 설명했습니다. 키워드 기반 검색 대신 대상 고객의 의도에 대한 맥락을 제공하면, Claude가 페이지 내용을 읽고 의미를 기반으로 판단하여 실행 가능한 결과를 HTML 파일로 출력합니다.

실제 응용 분야에서 AI 에이전트 자율성 이해하기
Anthropic의 최근 연구는 Claude Code와 같은 AI 에이전트의 자율성을 다양한 도메인에서 측정하기 위해 수백만 건의 인간-에이전트 상호작용을 분석합니다.

OpenClaw 사용자가 MCP를 통해 문서에 연결한 후 유용성이 향상되었다고 보고했습니다.
한 사용자가 OpenClaw 설정을 자신의 문서에 연결한 후 yavy.dev를 인덱싱에, MCP를 통합에 사용하여 일반적인 질문-답변을 넘어 구체적인 문제 해결 및 구성 지원으로 유용성이 크게 향상된 경험을 공유했습니다.

개발자가 AI 통합을 위한 PDF 좌표 도구 공유
한 개발자가 PDF 내에서 정확한 이미지 배치를 위한 X,Y 좌표를 찾는 작은 도구를 만들었고, 그런 다음 AI 에이전트를 사용하여 이를 더 큰 HR 시스템 프로젝트에 통합해 서명 위치 문제를 해결했습니다.