「簡潔さ」がClaude Code圧縮ベンチマークで原始人プラグインを破る

✍️ OpenClawRadar📅 公開日: April 30, 2026🔗 Source
「簡潔さ」がClaude Code圧縮ベンチマークで原始人プラグインを破る
Ad

Max Taylor氏が人気のClaude Code圧縮プラグイン「caveman」を、自明なベースライン(各プロンプトに「簡潔に」と前置きする)と比較ベンチマークした。結果は驚くほど平坦だが、プラグインが実際に価値を発揮する場面が明らかになった。

ベンチマーク手法

6カテゴリ(バグ診断、概念説明、アーキテクチャのトレードオフ、マルチステップ設定、セキュリティ/破壊的操作、エラー解釈)にわたる24のプロンプト。各プロンプトには、必須のキーポイント、必須用語、禁止される主張を含む評価基準が設定された。5つのアームをテスト:ベースライン(指示なし)、「簡潔に」、cavemanの3つの強度レベル(Lite、Full、Ultra)。すべてclaude-opus-4-7claude -pを使用して実行。応答はclaude-sonnet-4-6が評価基準に照らしてスコアリングした。

品質結果

すべてのアームが互いに1.5%以内のスコア差に収まった:

  • ベースライン:0.985
  • 簡潔に:0.985
  • Lite:0.976
  • Full:0.975
  • Ultra:0.970

すべてのアームがキーポイントを100%達成。120の応答全体で禁止される主張はゼロ。圧縮による実質的な内容の低下はなかった。

トークン数

アーム平均トークン数
ベースライン636
簡潔に419(34%削減)
Lite401
Full404
Ultra449

「簡潔に」はベースライン比34%のトークン削減。cavemanのLiteとFullは「簡潔に」に近い値。最も厳しいモードであるUltraは3つの中で最も長い回答を生成したが、カテゴリ別に見ると異なるストーリーが浮かび上がる。

Ad

カテゴリ別に見るcavemanの設計思想

バグ診断、概念説明、アーキテクチャのトレードオフ、エラー解釈では、Ultraが最短または同等。圧縮は宣伝通りに機能する。マルチステップ設定とセキュリティ警告では、すべてのcavemanモードでトークン数が増加。その理由は、cavemanの「Auto-Clarity」ルールが、安全警告、不可逆的な操作、マルチステップシーケンスに対して圧縮を明示的に無効にするため。安全エスケープが作動し、圧縮が停止する。これは設計上の特徴である。

では、cavemanは実際に何のためにあるのか?

「簡潔に」がトークン数と品質で同等なら、プラグインの価値は構造面にある:

  • 一貫した出力形状 — すべての応答が同じパターンに従い、ダウンストリームのツールや統一感のあるセッション体験に有用。
  • 強度のダイヤル — スラッシュコマンドでセッション中にLite/Full/Ultraを切り替え可能。
  • 長期セッションでの持続性 — cavemanはSessionStartおよびUserPromptSubmitフックを介してルールセットを再注入し、ドリフトを防止(この単発ベンチマークでは未テスト)。

完全なデータセットとハーネスはオープンソース。

📖 全文ソース: HN AI Agents

Ad

👀 See Also

放送:ライブURLへの即時HTML公開のためのClaudeコードスキル
Tools

放送:ライブURLへの即時HTML公開のためのClaudeコードスキル

Airedは、Claude CodeスキルやMCPサーバーを介して、HTMLを2秒でライブURLに公開するオープンソースツールです。WebベースのAIツールでは、サインアップ、デプロイ設定、インストールが不要で、Claude Code、Cursor、VS Code、Codex、Windsurfで動作します。

OpenClawRadar
NexQuant: エッジデプロイメント向けRustネイティブ3ビットKVキャッシュエンジン
Tools

NexQuant: エッジデプロイメント向けRustネイティブ3ビットKVキャッシュエンジン

NexQuantは、生産環境で実証済みのRustエンジンであり、通常はメモリ制約に悩まされるコンシューマーハードウェア上で高コンテキストモデルを実行可能にし、3〜5倍のメモリ削減を実現します。Metal、CUDA、Vulkan、CPUバックエンドをサポートしています。

OpenClawRadar
リポジトリトークン:GitHubアクションがLLMコンテキストウィンドウ認識のためのトークン数バッジを追加
Tools

リポジトリトークン:GitHubアクションがLLMコンテキストウィンドウ認識のためのトークン数バッジを追加

Repo Tokensは、tiktokenを使用してコードベースのサイズをトークン数でカウントし、READMEにバッジを表示してLLMのコンテキストウィンドウの何パーセントを占めるかを示すGitHub Actionです。バッジは30%未満を緑、50-70%を黄、70%以上を赤で表示します。

OpenClawRadar
オープンソースのClaudeプラグインが、ライブプレビュー付きのインタラクティブなビジュアルチューナーを生成します
Tools

オープンソースのClaudeプラグインが、ライブプレビュー付きのインタラクティブなビジュアルチューナーを生成します

開発者が、Claude CodeでCSS値を微調整するためのスライダーとFigmaスタイルの無限キャンバスを備えた単一HTMLページを生成するオープンソースプラグインを構築しました。このプラグインはソースファイルを読み取り、インタラクティブなキャンバス上で要素を再現し、ライブプレビュー付きで精密な調整を行うコントロールを提供します。

OpenClawRadar