ジェイク・ベンチマーク v1：7つのローカルLLM性能比較

Qwen 27B: 59.4%を獲得 - メールの処理、会議のスケジューリング、フィッシング試行の検出、エラーの管理に成功
Nemotron 30B: 1.6%を獲得 - apt-get install git を実行してタスクを解決しようと試みた

Jake Benchmark v1は、OpenClawを使用したAIエージェントとして機能するローカルLLMのパフォーマンス評価ツールです。実世界のエージェントシナリオにおける有効性を判断するために、22の実用的なタスクでモデルをテストします。

テスト設定と方法論

このベンチマークは、NVIDIA 3090 GPU上でOllamaを実行するRaspberry Piで実施されました。開発者はOpenClawを使用したエージェント作業に最適なモデルを特定するため、7つの異なるローカルLLMをテストしました。

22のタスクは、以下のような実世界のシナリオをカバーしています：

モデル間でのパフォーマンスのばらつきは顕著でした：

フィッシングテストでは興味深い挙動が明らかになりました：

このベンチマークには、ユーザーが以下のことを可能にするインタラクティブなダッシュボードが含まれています：

このツールはGitHubで公開されており、開発者が独自の評価を実行し、エージェントタスクにおけるローカルLLMのパフォーマンスを比較できます。

📖 Read the full source: r/openclaw