간결함이 클로드 코드 압축 벤치마크에서 동굴맨 플러그인을 이겼다

Max Taylor가 인기 있는 Claude Code 압축 플러그인 'caveman'을 간단한 기준선(각 프롬프트 앞에 '간단히 말해'를 추가)과 비교하여 벤치마크했습니다. 결과는 놀랍도록 비슷하지만, 플러그인이 실제로 가치를 제공하는 지점을 드러냅니다.
벤치마크 방법론
6개 카테고리(버그 진단, 개념 설명, 아키텍처 트레이드오프, 다단계 설정, 보안/파괴적 작업, 오류 해석)에 걸쳐 24개의 프롬프트가 사용되었습니다. 각 프롬프트에는 필수 핵심 사항, 필수 용어, 금지 주장이 포함된 평가 기준이 있었습니다. 5가지 설정이 테스트되었습니다: 기준선(지시 없음), '간단히 말해', 그리고 세 가지 강도 수준의 caveman(라이트, 풀, 울트라). 모두 claude-opus-4-7에서 claude -p로 실행되었습니다. 응답은 claude-sonnet-4-6이 평가 기준에 따라 점수를 매겼습니다.
품질 결과
모든 설정의 점수는 서로 1.5% 이내였습니다:
- 기준선: 0.985
- 간단히 말해: 0.985
- 라이트: 0.976
- 풀: 0.975
- 울트라: 0.970
모든 설정이 핵심 사항을 100% 충족했습니다. 120개의 응답에서 금지 주장은 전혀 없었습니다. 압축으로 인해 내용이 손실되지는 않았습니다.
토큰 수
| 설정 | 평균 토큰 |
|---|---|
| 기준선 | 636 |
| 간단히 말해 | 419 (34% 감소) |
| 라이트 | 401 |
| 풀 | 404 |
| 울트라 | 449 |
'간단히 말해'는 기준선 대비 토큰을 34% 줄였습니다. Caveman 라이트와 풀은 '간단히 말해'와 비슷한 수준이었습니다. 가장 엄격한 모드인 울트라는 세 가지 중 가장 긴 답변을 생성했지만, 카테고리별로 보면 다른 이야기가 드러납니다.
카테고리별 결과가 caveman의 설계를 드러냄
버그 진단, 개념 설명, 아키텍처 트레이드오프, 오류 해석에서 울트라가 가장 짧거나 동일했습니다. 압축이 의도대로 작동한 것입니다. 다단계 설정과 보안 경고에서는 모든 caveman 모드가 더 높은 토큰 수를 보였습니다. 이유는 caveman의 '자동 명확성' 규칙이 보안 경고, 되돌릴 수 없는 작업, 다단계 시퀀스에 대해 압축을 명시적으로 비활성화하기 때문입니다. 안전 이스케이프가 작동하고 압축이 중단됩니다 — 설계된 대로입니다.
그렇다면 caveman은 실제로 무엇을 위한 것일까?
'간단히 말해'가 토큰과 품질에서 동일하다면, 플러그인의 가치는 구조적입니다:
- 일관된 출력 형태 — 모든 응답이 동일한 패턴을 따르므로, 다운스트림 도구나 일관된 세션 느낌에 유용합니다.
- 강도 조절 — 세션 중간에 라이트/풀/울트라를 전환하는 슬래시 명령어.
- 긴 세션에서의 지속성 — caveman이
SessionStart및UserPromptSubmit훅을 통해 규칙 세트를 재주입하여 표류를 방지합니다(이 단일 샷 벤치마크에서는 테스트되지 않음).
전체 데이터셋과 도구는 오픈 소스로 제공됩니다.
📖 전체 소스 읽기: HN AI Agents
👀 See Also

로컬 도구로 클로드 코드 세션 데이터 시각화하기
Python 스크립트가 로컬에 저장된 ~/.claude/의 Claude Code 세션 데이터를 읽고, D3.js 차트를 사용한 스크롤 기반 시각화를 생성하여 일일 활동, 프로젝트 분류, 도구 사용량, 코딩 리듬 히트맵을 보여줍니다.

LLM 회로 탐색기: 학습 없이 추론 능력 향상을 위해 3개의 레이어를 복제합니다
새로운 툴킷이 트랜스포머 모델에서 '추론 회로'를 발견합니다. 이는 분리할 수 없는 인지 단위로 작동하는 3-4개의 연속적인 레이어 블록입니다. Devstral-24B의 12-14 레이어 블록을 복제하면 가중치 변경이나 학습 없이 BBH 벤치마크의 논리적 추론 점수가 0.22에서 0.76으로 향상됩니다.

Found-Issues 플러그인이 Claude가 다른 작업을 수행하는 동안 무시하는 버그를 기록합니다
범위를 벗어난 버그를 발견했을 때 에이전트가 docs/found-issues.md에 한 줄 항목을 기록하는 Claude Code 플러그인입니다. PR 병합 시 자동 종료 및 툼스톤 감지 기능을 제공합니다.
Claude가 clawhub을 통해 실시간 Zillow 데이터로 3시간 만에 부동산 분석 앱 프로토타입 제작
한 개발자가 Claude에 zillow-full clawhub 툴을 사용하여 임대 현금 흐름 분석 앱을 구축하도록 했습니다. 실시간 Zillow API 데이터를 가져오고, 실제 JSON 응답을 중심으로 UI 프로토타입을 만들었으며, 단 하루 오후에 작동하는 프로토타입을 완성했습니다.