Qwen3 27B vs Gemma 4 26B：ツール呼び出し比較とローカルAIパイプライン

週末、All About AIは詳細なチュートリアルを公開し、完全ローカルのFireshipスタイル動画自動化パイプラインを紹介しました。主な発見：ツール呼び出しの信頼性は、テストした2つのモデルで大きく異なりました。

ツール呼び出し：Qwen3 27B vs Gemma 4 26B

Gemma 4 26Bはツール呼び出しループに繰り返し陥り、不要な推論にトークンを浪費しました。Qwen3（具体的にはQwen 3.6 27B？）は、同じオーケストレーションを無駄な思考トークンなしでクリーンに処理しました。ベンチマーク数値と実際のエージェントワークフローのパフォーマンスには大きな差があり、ツール呼び出しループは時間とGPUメモリの両方を消費します。

ツール呼び出しスタック（OpenClaw、Aider、カスタムループ）を使用している場合、モデルの選択は合成ベンチマークが示す以上に重要です。著者は、特定のスタックにおけるQwen3のツール呼び出しとDeepSeek V4の失敗率の数値を明示的に求めています。

画像生成：Said Image Turbo

画像については、パイプラインはHugging FaceのSaid Image Turboを使用しました。オープンウェイトでAPIコストはかかりません。ミーム風のカードには適していますが、ポートレートショットにはFluxやSeedreamを使用する必要があります。

オーケストレーション：174KコンテキストのOpenCode

パイプライン全体はOpenCodeでオーケストレーションされました。コンテキストウィンドウは174Kトークンに達し、ToDoリストは1回のパスで完全には完了しませんでした。オペレーターは途中で離席し、部分的な結果を見て戻ってきました。これは、自律型AIツールの現状を正直に描写したものです。

リモート実行

27Bモデルをローカルで実行できない場合、Qwen3は複数の推論プロバイダーで利用可能であり、GPUを前もって用意しなくても同じウェイトとツール呼び出し動作を得られます。

📖 全文ソース： r/LocalLLaMA

Qwen3 27B、現実のツール呼び出しでGemma 4 26Bを上回る：ローカルAIビデオパイプライン向け

ツール呼び出し：Qwen3 27B vs Gemma 4 26B

画像生成：Said Image Turbo

オーケストレーション：174KコンテキストのOpenCode

リモート実行

👀 See Also

OpenAIとPNNL、連邦許可手続きにおけるAIコーディングエージェント向けにDraftNEPABenchを発表

MiniMax M2.7モデル、AIコーディングエージェントとして高い性能を発揮

Anthropicがモバイル開発向けにClaude Code Remote Controlをリリースしました。

Claude for ExcelおよびPowerPointの更新：アプリケーション間のコンテキストとスキル統合