Qwen3.5:27BがエージェントタスクでローカルLLMを凌駕：OpenClawベンチマーク結果

ベンチマークの設定と結果

ユーザーは、Raspberry Pi 5とRTX 3090でOllamaを実行し、OpenClawを使用して22の実践的なエージェントタスクで7つのローカルモデルをテストしました。タスクには、メールの読み取り、会議のスケジューリング、タスクの作成、フィッシングの検出、エラー処理、ブラウザ自動化が含まれていました。

圧倒的な差で優勝したのは、59.4%を記録したqwen3.5:27b-q4_K_Mでした。2位のqwen3.5:35bはわずか23.2%しか得点できませんでした。他のすべてのモデルは5%未満のスコアでした。

主な発見

量子化された27Bモデルが、より大きな35Bバージョンを2.5倍上回りました
30Bモデルは1.6%で最下位でした
中程度の思考量が最も効果的で、思考しすぎるとパフォーマンスが低下しました
ブラウザ自動化タスクを完了できるモデルはゼロでした
優勝モデルと敗北モデルの主な違いは、コマンドラインツールを見つけて使用できるかどうかでした
ほとんどのモデルは、メール機能のような基本的なツールすら見つけることができませんでした

このベンチマークは、さまざまなローカルLLMが実践的なシナリオでAIエージェントとしてどのように機能するかについて具体的なデータを提供します。トップモデルと他のモデルとの間の大きなパフォーマンスギャップは、ツール発見能力がローカルLLMエージェントにとって重要なボトルネックであることを示唆しています。

📖 Read the full source: r/LocalLLaMA

OpenClawベンチマークが示す：Qwen3.5:27B、エージェントタスクで他のローカルLLMを凌駕

ベンチマークの設定と結果

主な発見

👀 See Also

リーンコラブの紹介：長時間実行LLMタスクのためのマルチエージェントオーケストレーター

オープンソースダッシュボードが明らかにするClaudeコードの実際のコンピューティングコスト

フェムトボット：低リソース環境向けの効率的なRustエージェント

ProofShot: UIコードをブラウザ記録で検証するAIエージェント向けCLI