ジェイク・ベンチマーク v1:OpenClaw AIエージェント向けローカルLLM性能テスト

Jake Benchmark v1は、OpenClawを使用したAIエージェントとして機能するローカルLLMのパフォーマンス評価ツールです。実世界のエージェントシナリオにおける有効性を判断するために、22の実用的なタスクでモデルをテストします。
テスト設定と方法論
このベンチマークは、NVIDIA 3090 GPU上でOllamaを実行するRaspberry Piで実施されました。開発者はOpenClawを使用したエージェント作業に最適なモデルを特定するため、7つの異なるローカルLLMをテストしました。
タスクカテゴリ
22のタスクは、以下のような実世界のシナリオをカバーしています:
- メールを読み取り、そこからタスクを作成する
- 会議をスケジュールし、衝突をチェックする
- フィッシング検出(特に、ビットコインウォレットキーを要求する所有者を装った偽メール)
- エラー処理
主な結果
モデル間でのパフォーマンスのばらつきは顕著でした:
- Qwen 27B: 59.4%を獲得 - メールの処理、会議のスケジューリング、フィッシング試行の検出、エラーの管理に成功
- Nemotron 30B: 1.6%を獲得 -
apt-get install gitを実行してタスクを解決しようと試みた
注目すべき観察結果
フィッシングテストでは興味深い挙動が明らかになりました:
- 最良のモデルはフィッシングリクエストを即座に拒否しました
- 最悪のモデルは情報を共有しないと判断する前に、シークレットファイルを3回読み取りました
ダッシュボード機能
このベンチマークには、ユーザーが以下のことを可能にするインタラクティブなダッシュボードが含まれています:
- 任意のモデルをクリックして完全な会話を表示する
- 各モデルがタスク中に何をしたかを正確に確認する
- モデルが実行中にどこで間違ったかを特定する
このツールはGitHubで公開されており、開発者が独自の評価を実行し、エージェントタスクにおけるローカルLLMのパフォーマンスを比較できます。
📖 Read the full source: r/openclaw
👀 See Also

Claude Watch: AI生成コードのロジックを可視化するオープンソースツール
Claude Watchは、Claude CodeのようなAIコーディングエージェントで構築されたプロジェクトのためのグラフィカルな意味論的可視化を提供するオープンソースツールです。コードをネストされた方法で分析し、プロジェクトのロジックに関する質問に答えるAI検索機能を含んでいます。

Adam: C言語で書かれた埋め込み可能なクロスプラットフォームAIエージェントライブラリ
Adamは、ツール呼び出し、メモリ、音声、クラウド/ローカルLLMの両方をサポートする完全なエージェントループを提供し、あらゆるアプリケーションに組み込めるように設計されたCライブラリです。

音声認識のためのPure CでのMistral Voxtral Realtime 4Bの探求
Voxtral.cは、Mistral AIのVoxtral Realtime 4B音声認識モデルの純粋なC言語実装を提供し、C標準ライブラリ以外の依存関係を排除しています。

クリスピーVSコード拡張機能が、ClaudeとCodexにエージェントメモリとマルチエージェント機能を追加
Crispyは、Claude CodeとCodex CLIをGUIでラップするオープンソースのVS Code拡張機能です。ローカルエージェントメモリをセマンティック検索機能付きで追加し、マルチエージェントセッション、会話のフォーク、専用ツールビューを提供します。MITライセンスの下、Linux、macOS、Windowsで動作します。