ピンチベンチ結果:初のOpenClaw専用AIコーディングエージェントベンチマーク

PinchBenchは、OpenClawエコシステムにおけるAIコーディングエージェントの評価のために特別に設計された最初のベンチマークであり、成功率、コスト、速度でモデルをランク付けしています。
主な結果
このベンチマークでは32のモデルがテストされました。成功率による上位パフォーマーは以下の通りです:
- 1. google/gemini-3-flash-preview: 95.1%の成功率、0.72ドルのコスト、254.50秒の速度
- 2. minimax/minimax-m2.1: 93.6%の成功率、0.14ドルのコスト、239.79秒の速度
- 3. moonshotai/kimi-k2.5: 93.4%の成功率、0.20ドルのコスト、291.67秒の速度
- 4. anthropic/claude-sonnet-4.5: 92.7%の成功率、3.07ドルのコスト、304.53秒の速度
- 5. google/gemini-3-pro-preview: 91.7%の成功率、1.48ドルのコスト、239.55秒の速度
注目すべき発見
- FlashモデルはProモデルを低コストで上回る:Gemini-3-Flash-Preview(95.1%、0.72ドル)はGemini-3-Pro-Preview(91.7%、1.48ドル)を凌駕
- 高価なモデルが必ずしも優れたパフォーマンスを示すわけではない
- Minimax 2.5は35.5%の成功率、105.96秒の速度で31位(コストは記載なし)
- 複数のモデルが90%以上の高い成功率を維持しながら、1ドル未満のコストを実現
パフォーマンス範囲
成功率は95.1%(最高)から35.2%(最低)の範囲にあります。コスト効率の良い選択肢には以下が含まれます:
- openai/gpt-5-nano: 85.8%の成功率で0.03ドル
- google/gemini-2.5-flash-lite: 83.2%の成功率で0.05ドル
- mistralai/devstral-2512: 81.7%の成功率で0.10ドル
ランキングの下位(23-32位)の複数のモデルは、約40%以下の成功率を示しており、提供されたデータにはコストが記載されていません。
📖 完全なソースを読む: r/openclaw
👀 See Also

docvault: AIの幻覚を減らすためのローカルAPIドキュメント生成
docvaultは、Claudeや他のLLMが関数シグネチャを誤って生成するのを防ぐために、ソースコードからマークダウン形式のAPIリファレンスを生成するツールです。RustのクレートとPythonパッケージに対応し、2階層のマークダウンファイルを出力します。また、手間をかけずに操作できるClaude Codeプラグインも含まれています。

MCP対応エージェントネイティブホスティング:ocl-nexusでAIエージェント経由のアプリデプロイ
ocl-nexusがMCPサーバー設定を導入し、AIコーディングエージェントがAPIキーのみでアプリをSSO保護されたライブ環境に直接デプロイできるようになりました。

First-Tree: 就寝中にGitHub通知をトリアージするClaude Codeを使用したオープンソースデーモン
オープンソースのメニューバーデーモンで、Claude Codeを使ってGitHub通知を自律的にトリアージします。最近のスキャンでは100件中98件の通知を処理し、人間のレビューが必要だったのはわずか2件でした。

構造化された推論テンプレートがAIコードレビューの精度を向上
Redditユーザーが、Metaの研究を基にした構造化推論テンプレートを共有しました。このテンプレートはAIモデルに特定の分析ステップを完了させてからコードレビューを生成させるもので、arXiv:2603.01896によれば精度が5-12パーセントポイント向上するとされています。