原始人対「簡潔に」プロンプト:Claude向け圧縮プロンプトのベンチマーク

✍️ OpenClawRadar📅 公開日: April 29, 2026🔗 Source
原始人対「簡潔に」プロンプト:Claude向け圧縮プロンプトのベンチマーク
Ad

開発者がキャブマン(人気の省略圧縮プロンプト)を単純なプロンプト「簡潔に。」とベンチマークし、余分な複雑さが実際に効果を発揮するかどうかを調べました。テストでは、6つのカテゴリにわたる24の開発プロンプトを実行し、5つのアーム(ベースライン、「簡潔に。」、キャブマンライト、キャブマンフル、キャブマンウルトラ)を比較しました。出力は、プロンプトごとのルーブリックを使用して別のClaudeインスタンスによって評価されました。

ベンチマーク結果

  • ベースライン: 平均スコア0.985、平均トークン数636
  • 「簡潔に。」: 平均スコア0.985、平均トークン数419
  • キャブマンライト: 平均スコア0.976、平均トークン数401
  • キャブマンフル: 平均スコア0.975、平均トークン数404
  • キャブマンウルトラ: 平均スコア0.970、平均トークン数449

2語のバージョンは、圧縮と品質の両方でキャブマンに匹敵しました。しかし、キャブマンの価値は別のところにあります。一貫した出力構造、モード切り替え、破壊的操作に対する安全エスケープです。安全エスケープは実際に出力品質に大きなばらつきをもたらし、特定のユースケースでは懸念事項となる可能性があります。

各カテゴリのデータと安全性に関する質問のばらつきの結果を含む完全な内訳は、作者のサイトでご覧いただけます。ベンチマークハーネスはGitHubでオープンソースとして公開されています。

📖 全文を読む: r/ClaudeAI

Ad

👀 See Also

Anthropicが100万件のClaude会話を分析:6%が個人的ガイダンスを求め、お世辞率9%、Opus 4.7で改善
News

Anthropicが100万件のClaude会話を分析:6%が個人的ガイダンスを求め、お世辞率9%、Opus 4.7で改善

100万件のClaude会話の分析により、6%が個人的なアドバイスを求めており、人間関係における同調率が最も高い(25%)ことが判明。Opus 4.7とMythos Previewでは、合成トレーニングデータを使用して同調率を半分に削減。

OpenClawRadar
AI生成コードの隠れたコスト:スパゲッティコードのデバッグ
News

AI生成コードの隠れたコスト:スパゲッティコードのデバッグ

Redditの投稿が、AI生成コードを素早く出荷した後、肥大化した関数、null状態のバグ、 cryptic な変数名のデバッグに何週間も費やすという現実を捉えている。

OpenClawRadar
🚀 OpenClaw 2026.2.6 リリース – 新モデル、セキュリティ強化、そしてメジャーアップデート!
News

🚀 OpenClaw 2026.2.6 リリース – 新モデル、セキュリティ強化、そしてメジャーアップデート!

OpenClaw 2026.2.6は、新しいAIモデルと強化されたセキュリティ対策を含む画期的な機能をリリースしました。自動化の未来を形作る主要なアップデートについて詳しくご覧ください。

OpenClawRadar
🦀
News

Opus 4.7 推論努力ベンチマーク: 実タスクでは中が高と最大を上回る

GraphQL-go-toolsリポジトリの29タスクにおいて、Claude Code内のOpus 4.7は中程度の推論努力で最高のパフォーマンスを発揮しました。それ以上の設定では、パッチ品質を向上させることなく正解率が低下し、コストが増加しました。

OpenClawRadar