OpenClaw의 컨텍스트 관리, 토큰 집약적이고 구조적 결함 있다는 비판 받아

레딧 사용자가 OpenClaw의 아키텍처, 특히 컨텍스트 관리 접근법을 표적으로 한 상세한 비판을 게시했습니다. 이 게시글은 프레임워크가 게으른 전부-아니면-무(全有全無) 컨텍스트 덤프를 통해 LLM의 컨텍스트 창을 '쓰레기 매립지'로 취급함으로써 상태를 비효율적으로 처리한다고 주장합니다.
OpenClaw의 컨텍스트 처리 방식
출처에 따르면, OpenClaw는 적절한 상태 관리와 일시적 상태 격리가 부족합니다. 에이전트가 단계를 밟을 때마다 새로운 액션이 무조건 글로벌 히스토리에 추가됩니다. 세 번의 턴 안에 프롬프트는 다음과 같은 것들로 부풀려집니다:
- 글로벌 시스템 프롬프트
- 사용자의 전체 장기 기억 파일
- 사용 가능한 모든 도구 목록
- 마지막 명령의 원시 출력
- 이전의 모든 액션들
작은 모델들의 문제점
게시글은 Flash나 Mini 변종 같은 더 빠르고 저렴한 모델에서 OpenClaw를 실행할 때 발생하는 일을 설명합니다:
- 작은 모델들은 50,000개 이상의 오래된 터미널 출력, 도구 로그, 글로벌 페르소나 프롬프트에 익사할 때 '중간에서 길을 잃는' 증후군을 겪습니다
- 이 모델들은 문자 그대로 원래 목표를 잊어버립니다
- 작업이 이미 완료되었다는 환각을 일으키거나
- 정확히 같은 인자로 정확히 같은 도구를 호출하는 무한 루프에 갇히게 됩니다
Claude Opus 의존성
이 비판은 OpenClaw의 프론티어 모델 의존성까지 확장됩니다:
- OpenClaw는 에이전트가 '매우 유능하다'고 주장하지만, 이 능력은 Claude Opus 같은 거대한 프론티어 모델에 의지함에서 비롯됩니다
- Claude Opus는 80,000토큰의 '쓰레기 불덩이'를 응시하면서도 79,500토큰의 쓸모없는 역사적 부풀림을 성공적으로 무시하고 다음 단계를 추론할 수 있습니다
- 이는 프레임워크가 잘 구축된 것 같은 착시를 일으키지만, 실제로는 Opus가 아키텍처적 무능함을 가리고 있는 것입니다
- 사용자들은 설계가 잘못된 컨텍스트를 위한 '화려한 쓰레기 필터' 역할을 하는 최첨단 LLM을 사용하기 위해 Opus 등급 API 가격을 지불하게 됩니다
아키텍처 권장사항
게시글은 무력보다는 더 나은 엔지니어링을 주장합니다:
- 간단한 다단계 브라우저나 터미널 작업에 조 단위 파라미터 모델이 필요해서는 안 됩니다
- 올바르게 설계된다면, 루프는 모델이 환경을 관찰하도록 강제하고 지금 당장 보아야 할 것과 절대적으로 필요 없는 것을 정확히 공급해야 합니다
- 이 접근법은 더 저렴하고 빠른 모델을 사용하여 훨씬 적은 컴퓨팅으로 동일한 성공률을 달성할 수 있습니다
📖 Read the full source: r/openclaw
👀 See Also

Claude-Code v2.1.94는 Mantle 지원을 추가하고 중요한 버그를 수정했습니다.
Claude-Code v2.1.94는 CLAUDE_CODE_USE_MANTLE=1 환경 변수를 통해 Amazon Bedrock을 Mantle로 지원하는 기능을 도입하고, 대부분의 사용자에게 기본 노력 수준을 높음으로 변경하며, 속도 제한 처리, macOS 로그인 문제, 플러그인 시스템 문제 등 15개 이상의 버그를 수정했습니다.

미니맥스, 오픈클로 기반 클라우드 호스팅 AI 에이전트 '맥스클로' 출시
미니맥스가 오픈클로우 프레임워크 기반의 완전 관리형 클라우드 호스팅 AI 에이전트인 맥스클로우를 출시했습니다. 도커나 서버 없이 10초 만에 배포되며, 2290억 개의 파라미터, 20만~100만 토큰 컨텍스트, 최대 100 토큰/초 추론 속도를 갖춘 미니맥스 M2.5 모델을 특징으로 합니다.

Anthropic, 모델 버전 고정 기능을 제거해 클라이언트 애플리케이션에 차질
Anthropic은 claude-sonnet-4-5-20250929 모델을 지원 중단하고 사용자들을 claude-sonnet-4-6으로 강제 이전시키고 있습니다. 이 모델은 항상 최신 버전을 참조하며 특정 버전을 고정할 수 있는 방법이 없습니다. 이는 모델 버전이 변경될 때 클라이언트 애플리케이션이 예측 불가능하게 중단될 수 있음을 의미합니다.

AI 에이전트 일관성 연구: 주요 결과와 실용적 시사점
Claude, GPT-4o, Llama 모델을 대상으로 한 3,000건의 실험 연구에 따르면, 일관된 에이전트는 80~92%의 정확도를 보인 반면, 일관되지 않은 에이전트는 25~60%로 떨어졌으며, 69%의 차이는 첫 번째 도구 호출 시 발생했습니다.