Краткость побеждает пещерного человека в бенчмарке сжатия Claude Code

✍️ OpenClawRadar📅 Опубликовано: 30 апреля 2026 г.🔗 Source
Краткость побеждает пещерного человека в бенчмарке сжатия Claude Code
Ad

Макс Тейлор сравнил популярный плагин сжатия caveman для Claude Code с тривиальным базовым вариантом: добавлением 'be brief.' к каждому запросу. Результаты удивительно похожи — но показывают, где плагин действительно дает ценность.

Методология бенчмарка

24 запроса по шести категориям (диагностика ошибок, объяснение концепций, архитектурные компромиссы, многошаговая настройка, безопасность/деструктивные операции, интерпретация ошибок). Каждый запрос имел рубрику с обязательными ключевыми пунктами, обязательными терминами и запрещенными утверждениями. Тестировались пять вариантов: базовый (без инструкций), 'be brief.' и caveman на трех уровнях интенсивности (lite, full, ultra). Все запускались через claude -p на claude-opus-4-7. Ответы оценивались claude-sonnet-4-6 по рубрике.

Результаты качества

Все варианты показали результаты в пределах 1,5% друг от друга:

  • Базовый: 0,985
  • Brief: 0,985
  • Lite: 0,976
  • Full: 0,975
  • Ultra: 0,970

Каждый вариант набрал 100% ключевых пунктов. Ни одного запрещенного утверждения не было зафиксировано в 120 ответах. Сжатие не снизило содержательного качества.

Количество токенов

ВариантСреднее количество токенов
Базовый636
Brief419 (сокращение на 34%)
Lite401
Full404
Ultra449

'Be brief.' сократил количество токенов на 34% по сравнению с базовым. Caveman lite и full оказались близки к brief. Ultra, самый строгий режим, дал самые длинные ответы среди трех — но разбивка по категориям показывает другую картину.

Ad

Разбивка по категориям раскрывает дизайн caveman

В диагностике ошибок, объяснении концепций, архитектурных компромиссах и интерпретации ошибок ultra дает самый короткий или равный результат. Сжатие работает как заявлено. В многошаговой настройке и предупреждениях безопасности все режимы caveman показывают большее количество токенов. Причина: правило 'Auto-Clarity' в caveman явно отключает сжатие для предупреждений безопасности, необратимых действий и многошаговых последовательностей. Защита безопасности включается, и сжатие останавливается — по замыслу.

Так для чего на самом деле нужен caveman?

Если 'be brief.' сравнивается по токенам и качеству, ценность плагина заключается в структуре:

  • Согласованная форма вывода — каждый ответ следует одному шаблону, что полезно для последующей обработки или единообразия сессии.
  • Регулятор интенсивности — слэш-команды для переключения lite/full/ultra в середине сессии.
  • Устойчивость в длинных сессиях — caveman повторно внедряет свой набор правил через хуки SessionStart и UserPromptSubmit, чтобы предотвратить дрейф (не тестировалось в этом одноразовом бенчмарке).

Полный набор данных и тестовое окружение имеют открытый исходный код.

📖 Читать полный источник: HN AI Agents

Ad

👀 Смотрите также

Открытое хранилище памяти ИИ для проектов на NodeJS
Инструменты

Открытое хранилище памяти ИИ для проектов на NodeJS

Mind Palace — это система хранения и извлечения памяти с открытым исходным кодом для NodeJS, которая сохраняет информацию между сессиями чата LLM. Она поддерживает основные LLM и векторные хранилища, автоматически извлекая и векторизуя суммированные воспоминания из взаимодействий.

OpenClawRadar
OpenClaw Skill Pack: Набор команд более 2,500 для настоящих автономных операций на Ubuntu
Инструменты

OpenClaw Skill Pack: Набор команд более 2,500 для настоящих автономных операций на Ubuntu

Новый пакет навыков для агентов OpenClaw AI представляет более 2500 навыков выполнения для операций DevOps, таких как управление Docker, настройка сетей, реагирование на уязвимости CVE и автоматизация систем в средах Ubuntu.

OpenClawRadar
Плагин Claude Code анализирует любой плагин и создаёт интерактивные вики-отчёты.
Инструменты

Плагин Claude Code анализирует любой плагин и создаёт интерактивные вики-отчёты.

Новый плагин Claude Code под названием vision-powers анализирует любой путь плагина или URL GitHub и генерирует интерактивный HTML-вики-отчет с архитектурными диаграммами, аудитами безопасности и разбивкой навыков. Установка осуществляется через claude plugin add vision-powers@claude-code-zero.

OpenClawRadar
CostClaw: Бесплатная Локальная Панель Мониторинга Расходов для Агентов OpenClaw
Инструменты

CostClaw: Бесплатная Локальная Панель Мониторинга Расходов для Агентов OpenClaw

CostClaw — это бесплатный локальный плагин, который перехватывает все вызовы LLM через нативные хуки OpenClaw и предоставляет панель управления с разбивкой по моделям, затратами на сессию и графиками почасовых расходов. Разработчик обнаружил, что его агент heartbeat запускал Claude Sonnet каждые 3 минуты круглосуточно, что обходилось в $60 в месяц, а переход на Haiku сократил счёт примерно на 65%.

OpenClawRadar