Gemma 4 26B対Qwen 3.5 27B:RTX 4090でのローカル業務ワークフローベンチマーク

Redditユーザーが、プロシューマーワークステーションでのローカルビジネスオペレーターワークフローにおいて、Gemma 4 26BとQwen 3.5 27Bを包括的に比較するベンチマークを実施しました。
テスト環境
ベンチマークは以下のローカルワークステーションで実行されました:
- RTX 4090 24GB
- Intel i9-14900KF
- 64GB RAM
- Ubuntu 25.10
- モデル管理にOllamaを使用
テスト方法
これはコーディングベンチマークや単一プロンプトテストではありませんでした。評価では以下を使用しました:
- 18の有効な直接対決テスト
- 全テストで同一の信頼できるオファードキュメント
- 同一の制約、トーン要件、ルールセット
- 出力は鋭く、現実的で、実用的で、高品質で、オペレーターレベルであることが要求
- 捏造された統計、偽の保証、誇大宣伝、曖昧なAIコンサルタント的な内容は禁止
結果
最終スコア:Gemma 13勝、Qwen 5勝
主な発見
Gemmaの強み:
- ユーザー体験を変える劇的な速度の速さ
- ソースドキュメントの範囲内に留まる規律の高さ
- 作り話を追加せずに出力を実用的に保つ一貫性
- 勝利したテスト:要約ベンチマーク、オリジナルオペレーターベンチマーク、逆張りポジショニング、比喩テスト、発見的コール構築、反論対応、フック、ストーリー広告、複数キャンペーンラウンド、技術的設計図テスト、コピーバリデーションエンジンテスト
Qwenの強み:
- より広範な統合と豊かな心理的枠組み構築の強さ
- 優れた感情のニュアンスとより広い視点での第二段階の考察
- 勝利したテスト:逸脱なしの拡張、クライアント選定と優先順位付け、感情的角度の階梯、前後の感情変容、JSONコンパイラテスト
実践的結論
テスト実施者の結論:Gemmaは実行に優れ、Qwenは拡張に優れている。 Gemmaは、常に見守りが必要なく、ビジネスサイドのソースに基づいたワークフローを実行する信頼できるモデルです。Qwenは、第二意見、より広範な枠組みの検討、またはより感情的にニュアンスのある見解に適しています。
テスト実施者の現在のローカルスタック:
- Gemma 4 26B:デフォルトのテキストおよびビジネスモデル
- Qwen3-Coder 30B:コーディングモデル
- Qwen3-VL 30B:ビジョンモデル
- GPT-OSS 20B:高速フォールバック
このベンチマークは、「どちらのモデルがより賢いか」ではなく、「どちらのモデルが実際に無意味な内容に逸脱せずに実作業を進めるのに役立つか」についてのものであることを明らかにしました。
📖 Read the full source: r/openclaw
👀 See Also

NLAがGemma 3の内部活性化を任意のトークンに対して可読テキストに変換
Anthropicが、モデルの内部状態をテキストにデコードするNatural Language Autoencoders(NLA)を公開。Gemma 3と組み合わせたAuto Verbalizerは、生成された任意のトークンについてモデルが「考えていた」内容を説明します。重みはHugging Faceで、デモはNeuronpediaで公開されています。

OpenClaw Outlookアドインは、ローカルエージェントをメールサイドバーに接続します。
開発者が、WebSocketを介してローカルのOpenClaw Gatewayに接続するOutlookアドインを構築しました。このツールは、メールのサイドバー内でツールや自動化機能を備えた完全なエージェントアクセスを提供し、選択されたメールをコンテキストとして読み取り、メールごとのチャットセッションを維持し、OutlookデスクトップおよびWebで動作します。

Claude Code Sessionsの改善にclaude-self-improveを活用する
Claude-self-improveは、セッションデータを分析し、メモリファイルを自動的に更新することで、Claude CodeのAIパフォーマンスを向上させるCLIツールです。

RelayPlaneオープンソースプロキシ、Claudeモデルルーティングで73%のコスト削減を実現
Anthropic API向けのオープンソースnpmネイティブプロキシであるRelayPlaneは、複雑度に基づいて適切なClaudeモデルにリクエストをルーティングすることで、ベンチマークで73.4%のコスト削減を実証しました。このツールは、10リクエストあたりのコストを0.0323ドルから0.0086ドルに削減し、p50レイテンシを1.55秒から0.78秒に改善しました。