原始人対「簡潔に」プロンプト:Claude向け圧縮プロンプトのベンチマーク

開発者がキャブマン(人気の省略圧縮プロンプト)を単純なプロンプト「簡潔に。」とベンチマークし、余分な複雑さが実際に効果を発揮するかどうかを調べました。テストでは、6つのカテゴリにわたる24の開発プロンプトを実行し、5つのアーム(ベースライン、「簡潔に。」、キャブマンライト、キャブマンフル、キャブマンウルトラ)を比較しました。出力は、プロンプトごとのルーブリックを使用して別のClaudeインスタンスによって評価されました。
ベンチマーク結果
- ベースライン: 平均スコア0.985、平均トークン数636
- 「簡潔に。」: 平均スコア0.985、平均トークン数419
- キャブマンライト: 平均スコア0.976、平均トークン数401
- キャブマンフル: 平均スコア0.975、平均トークン数404
- キャブマンウルトラ: 平均スコア0.970、平均トークン数449
2語のバージョンは、圧縮と品質の両方でキャブマンに匹敵しました。しかし、キャブマンの価値は別のところにあります。一貫した出力構造、モード切り替え、破壊的操作に対する安全エスケープです。安全エスケープは実際に出力品質に大きなばらつきをもたらし、特定のユースケースでは懸念事項となる可能性があります。
各カテゴリのデータと安全性に関する質問のばらつきの結果を含む完全な内訳は、作者のサイトでご覧いただけます。ベンチマークハーネスはGitHubでオープンソースとして公開されています。
📖 全文を読む: r/ClaudeAI
👀 See Also

Anthropicが100万件のClaude会話を分析:6%が個人的ガイダンスを求め、お世辞率9%、Opus 4.7で改善
100万件のClaude会話の分析により、6%が個人的なアドバイスを求めており、人間関係における同調率が最も高い(25%)ことが判明。Opus 4.7とMythos Previewでは、合成トレーニングデータを使用して同調率を半分に削減。

AI生成コードの隠れたコスト:スパゲッティコードのデバッグ
Redditの投稿が、AI生成コードを素早く出荷した後、肥大化した関数、null状態のバグ、 cryptic な変数名のデバッグに何週間も費やすという現実を捉えている。

🚀 OpenClaw 2026.2.6 リリース – 新モデル、セキュリティ強化、そしてメジャーアップデート!
OpenClaw 2026.2.6は、新しいAIモデルと強化されたセキュリティ対策を含む画期的な機能をリリースしました。自動化の未来を形作る主要なアップデートについて詳しくご覧ください。
Opus 4.7 推論努力ベンチマーク: 実タスクでは中が高と最大を上回る
GraphQL-go-toolsリポジトリの29タスクにおいて、Claude Code内のOpus 4.7は中程度の推論努力で最高のパフォーマンスを発揮しました。それ以上の設定では、パッチ品質を向上させることなく正解率が低下し、コストが増加しました。