OpenClawベンチマークが示す:Qwen3.5:27B、エージェントタスクで他のローカルLLMを凌駕

ベンチマークの設定と結果
ユーザーは、Raspberry Pi 5とRTX 3090でOllamaを実行し、OpenClawを使用して22の実践的なエージェントタスクで7つのローカルモデルをテストしました。タスクには、メールの読み取り、会議のスケジューリング、タスクの作成、フィッシングの検出、エラー処理、ブラウザ自動化が含まれていました。
圧倒的な差で優勝したのは、59.4%を記録したqwen3.5:27b-q4_K_Mでした。2位のqwen3.5:35bはわずか23.2%しか得点できませんでした。他のすべてのモデルは5%未満のスコアでした。
主な発見
- 量子化された27Bモデルが、より大きな35Bバージョンを2.5倍上回りました
- 30Bモデルは1.6%で最下位でした
- 中程度の思考量が最も効果的で、思考しすぎるとパフォーマンスが低下しました
- ブラウザ自動化タスクを完了できるモデルはゼロでした
- 優勝モデルと敗北モデルの主な違いは、コマンドラインツールを見つけて使用できるかどうかでした
- ほとんどのモデルは、メール機能のような基本的なツールすら見つけることができませんでした
このベンチマークは、さまざまなローカルLLMが実践的なシナリオでAIエージェントとしてどのように機能するかについて具体的なデータを提供します。トップモデルと他のモデルとの間の大きなパフォーマンスギャップは、ツール発見能力がローカルLLMエージェントにとって重要なボトルネックであることを示唆しています。
📖 Read the full source: r/LocalLLaMA
👀 See Also

Claude Watch: AI生成コードのロジックを可視化するオープンソースツール
Claude Watchは、Claude CodeのようなAIコーディングエージェントで構築されたプロジェクトのためのグラフィカルな意味論的可視化を提供するオープンソースツールです。コードをネストされた方法で分析し、プロジェクトのロジックに関する質問に答えるAI検索機能を含んでいます。

テストリール:Claude Codeによるプログラム的なデモ動画生成
Testreelは、JSON、YAML、またはPlaywrightの操作記述から洗練された製品デモ動画を生成するnpmパッケージです。カーソルのオーバーレイ、クリック時の波紋、グラデーション背景付きのwebm/mp4/gif動画を作成します。

Claude使用状況バーカラーライザーブラウザ拡張機能(Claude Codeで構築)
開発者が、使用率のパーセンテージに基づいてクロードの使用状況バーを緑から黄色、赤へと色分けするブラウザ拡張機能を作成しました。この拡張機能は、リアルタイムの使用状況データをポップアップで表示し、閾値と色のカスタマイズを可能にします。拡張機能はクロードの使用状況ページでのみ動作し、設定はローカルに保存され、外部へのネットワークリクエストは一切行いません。

開発者がAIエージェントの決済、評価、マイクロペイメント向けに10以上のMCPサーバーを公開
ある開発者が、100以上のエージェントを搭載したClaude Code上で動作するBlindOracleの一部として、AIエージェントインフラストラクチャ向けのMCP(Model Context Protocol)サーバーアーキテクチャを共有しました。