Краткость побеждает пещерного человека в бенчмарке сжатия Claude Code

Макс Тейлор сравнил популярный плагин сжатия caveman для Claude Code с тривиальным базовым вариантом: добавлением 'be brief.' к каждому запросу. Результаты удивительно похожи — но показывают, где плагин действительно дает ценность.
Методология бенчмарка
24 запроса по шести категориям (диагностика ошибок, объяснение концепций, архитектурные компромиссы, многошаговая настройка, безопасность/деструктивные операции, интерпретация ошибок). Каждый запрос имел рубрику с обязательными ключевыми пунктами, обязательными терминами и запрещенными утверждениями. Тестировались пять вариантов: базовый (без инструкций), 'be brief.' и caveman на трех уровнях интенсивности (lite, full, ultra). Все запускались через claude -p на claude-opus-4-7. Ответы оценивались claude-sonnet-4-6 по рубрике.
Результаты качества
Все варианты показали результаты в пределах 1,5% друг от друга:
- Базовый: 0,985
- Brief: 0,985
- Lite: 0,976
- Full: 0,975
- Ultra: 0,970
Каждый вариант набрал 100% ключевых пунктов. Ни одного запрещенного утверждения не было зафиксировано в 120 ответах. Сжатие не снизило содержательного качества.
Количество токенов
| Вариант | Среднее количество токенов |
|---|---|
| Базовый | 636 |
| Brief | 419 (сокращение на 34%) |
| Lite | 401 |
| Full | 404 |
| Ultra | 449 |
'Be brief.' сократил количество токенов на 34% по сравнению с базовым. Caveman lite и full оказались близки к brief. Ultra, самый строгий режим, дал самые длинные ответы среди трех — но разбивка по категориям показывает другую картину.
Разбивка по категориям раскрывает дизайн caveman
В диагностике ошибок, объяснении концепций, архитектурных компромиссах и интерпретации ошибок ultra дает самый короткий или равный результат. Сжатие работает как заявлено. В многошаговой настройке и предупреждениях безопасности все режимы caveman показывают большее количество токенов. Причина: правило 'Auto-Clarity' в caveman явно отключает сжатие для предупреждений безопасности, необратимых действий и многошаговых последовательностей. Защита безопасности включается, и сжатие останавливается — по замыслу.
Так для чего на самом деле нужен caveman?
Если 'be brief.' сравнивается по токенам и качеству, ценность плагина заключается в структуре:
- Согласованная форма вывода — каждый ответ следует одному шаблону, что полезно для последующей обработки или единообразия сессии.
- Регулятор интенсивности — слэш-команды для переключения lite/full/ultra в середине сессии.
- Устойчивость в длинных сессиях — caveman повторно внедряет свой набор правил через хуки
SessionStartиUserPromptSubmit, чтобы предотвратить дрейф (не тестировалось в этом одноразовом бенчмарке).
Полный набор данных и тестовое окружение имеют открытый исходный код.
📖 Читать полный источник: HN AI Agents
👀 Смотрите также

Открытое хранилище памяти ИИ для проектов на NodeJS
Mind Palace — это система хранения и извлечения памяти с открытым исходным кодом для NodeJS, которая сохраняет информацию между сессиями чата LLM. Она поддерживает основные LLM и векторные хранилища, автоматически извлекая и векторизуя суммированные воспоминания из взаимодействий.

OpenClaw Skill Pack: Набор команд более 2,500 для настоящих автономных операций на Ubuntu
Новый пакет навыков для агентов OpenClaw AI представляет более 2500 навыков выполнения для операций DevOps, таких как управление Docker, настройка сетей, реагирование на уязвимости CVE и автоматизация систем в средах Ubuntu.

Плагин Claude Code анализирует любой плагин и создаёт интерактивные вики-отчёты.
Новый плагин Claude Code под названием vision-powers анализирует любой путь плагина или URL GitHub и генерирует интерактивный HTML-вики-отчет с архитектурными диаграммами, аудитами безопасности и разбивкой навыков. Установка осуществляется через claude plugin add vision-powers@claude-code-zero.

CostClaw: Бесплатная Локальная Панель Мониторинга Расходов для Агентов OpenClaw
CostClaw — это бесплатный локальный плагин, который перехватывает все вызовы LLM через нативные хуки OpenClaw и предоставляет панель управления с разбивкой по моделям, затратами на сессию и графиками почасовых расходов. Разработчик обнаружил, что его агент heartbeat запускал Claude Sonnet каждые 3 минуты круглосуточно, что обходилось в $60 в месяц, а переход на Haiku сократил счёт примерно на 65%.