ClawCut Proxy: 소형 LLM(7B-8B) 최적화를 위한 OpenClaw 툴

ClawCut Proxy는 이제 GitHub에서 실험용 도구로 제공되며, 특히 OpenClaw의 기본 대규모 시스템 프롬프트와 복잡한 도구 정의를 처리하기 어려워하는 소형 모델과의 OpenClaw 상호작용을 최적화하도록 설계되었습니다.

ClawCut이 해결하는 문제

OpenClaw는 대규모 시스템 프롬프트(종종 28,000자 이상)와 복잡한 JSON 도구 정의를 LLM에 전송합니다. 대규모 클라우드 모델이나 고성능 로컬 모델(14B+)은 이를 잘 처리하지만, 제한된 하드웨어(Mac/MLX 또는 Raspberry Pi)에서 실행되는 소형 모델(7B, 8B)은 "인지 과부하"로 인해 다음과 같은 문제를 겪습니다:

극심한 처리 지연(느린 첫 토큰 생성 시간)
모델이 자신의 정체성이나 사용 가능한 도구를 잊어버림
로컬 스크립트를 실행하는 대신 텍스트 답변을 망상함
연결 시간 초과 또는 잘못된 형식의 JSON 응답
거대한 RAM 소비

ClawCut 작동 방식

ClawCut은 OpenClaw와 로컬 LLM 서버 사이의 "중간자" 역할을 하며 다음과 같은 최적화 기능을 제공합니다:

프롬프트 트리밍: 시스템 프롬프트에서 사용되지 않는 기본 기술을 자동으로 제거하여 컨텍스트 창을 작고 집중적으로 유지
스마트 기억 상실: 도구 실행 성공 후 채팅 기록을 지능적으로 잘라내어 모델의 "정신 공간" 확보
주의 강제: 사용자 쿼리 맨 끝에 리마인더를 주입하여 모델이 도구 사용을 우선시하도록 보장
도구 강제: 도구 호출을 위한 키워드와 명령어 포인터를 주입
입력 구조: 알려진 수신 요청(예: Cron-Jobs)을 단락시켜 LLM 지연을 우회하고 자동화 작업의 100% 신뢰성 보장
BASH 구조: 잘못된 형식의 스크립트 호출(예: 코드 블록 노출)을 감지하고 즉시 유효한 OpenClaw 도구 호출로 변환
시스템 프롬프트에서 동적 타임스탬프를 자동으로 필터링하여 하드웨어 캐싱을 통한 거의 즉각적인 응답 가능
OpenAI 호환 스트림(MLX)과 OpenClaw가 기대하는 Ollama/NDJSON 형식 간 변환
사전 채우기 지속 시간, 토큰 수의 실시간 콘솔 출력

성능 및 디버깅

ClawCut은 모델이 사전에 처리할 텍스트가 적어 응답 시간(TTFT)이 상당히 빠르고, 스크립트 호출 시 신뢰성이 향상되며, 스트림 중단이나 형식 오류에 대한 강력한 오류 처리를 제공합니다. DEBUG_MODE가 활성화되면 OpenClaw가 전송한 전체 "JSON 잡음"을 검사하여 모델이 정확히 무엇을 처리하는지 이해할 수 있습니다.

사용 시기

Mac(MLX), Windows 또는 Linux와 같은 하드웨어에서 실행되는 소형 모델(7B-8B)에 이상적이며, 특히 모델이 명령을 실행하는 대신 "너무 많이 채팅"하는 경우에 적합합니다. 복잡한 프롬프트를 기본적으로 처리할 수 있는 고지능 대형 모델(14B+)을 사용하는 경우 주의해서 사용하세요. 이 경우 프록시는 PASS_THROUGH_MODE = True로 설정하면 콘텐츠를 조작하지 않고 순수 로거 및 형식 변환기 역할을 할 수 있습니다.

📖 전체 소스 읽기: r/openclaw