ベンチマーク:24GB Mac MiniでのGemma4 12Bと量子化版Qwen3 8Bの比較

OpenClaw用2つのローカルモデルの性能比較
開発者が24GB Mac MiniでGemma4 12BとQwen3:8b-q4_K_Mを直接比較するテストを実施しました。テストでは「キャブレーターの仕組みを説明せよ」と「メモリリークを検出するPython関数を作成せよ」の2つのプロンプトを使用。Claudeが出力測定用のgrepコマンド作成を支援しました。
ベンチマーク結果
キャブレーター説明タスク:
- Qwen3:8b-q4_K_M: プロンプト評価: 89.8 t/s, 生成: 19.6 t/s
- Gemma4: プロンプト評価: 20.8 t/s, 生成: 27.6 t/s
Pythonコーディングタスク:
- Qwen3:8b-q4_K_M: プロンプト評価: 133.8 t/s, 生成: 18.7 t/s
- Gemma4: プロンプト評価: 26.1 t/s, 生成: 26.1 t/s
主な発見
Qwen3はGemma4よりもプロンプト処理が4〜5倍速く、これはOpenClawで通常送信される大規模なコンテキストプロンプトを考慮すると重要です。Gemma4は出力生成がわずかに速いです。多くのOpenClaw用途では、速度面でQwen3が優位です。開発者は、Gemma4が12Bモデルであり、わずかに優れた出力を生成する可能性があると指摘していますが、これはテストされていません。
開発者はcronジョブ、ハートビート監視、メモリインデックス作成など様々なタスクをローカルモデルで実行しており、OpenClawがローカルモデルを実行するサブエージェントを呼び出すことがよくあります。これらのバックグラウンドタスクすべてにGemma4をローカルモデルとしてテストしていますが、バックグラウンドで実行されるため性能差は気づかないと予想しています。
📖 Read the full source: r/openclaw
👀 See Also

Krasis: 大規模MoEモデルのためのハイブリッドCPU/GPUランタイム、RTX 5080で3,324 tok/sのプリフィルを達成
Krasisは、大規模なMoEモデルを実行するためのハイブリッドCPU/GPUランタイムで、GPUでプリフィルを処理し、CPUでデコードを行うことで、RTX 5080でQwen3-Coder-Next 80B Q4モデルに対して3,324トークン/秒のプリフィル速度を達成しています。VRAMに収まらないモデルを実行可能にする一方で、モデルサイズの約2.5倍のシステムRAMを必要とします。

Claude 4.6 Opusの推論機能が、MLX量子化によりApple Silicon向けに14GBに蒸留されました。
開発者が、Claude 4.6 Opusの推論能力をApple Siliconハードウェアに持ち込むローカルAIモデルを量子化することに成功し、パフォーマンスを維持しながらメモリ使用量を大幅に削減しました。

フェーズロック:子育ての手法に着想を得たAIエージェント制御システム
Phaselockは、AIコーディングエージェント向けに4つの制御メカニズムを実装したオープンソースのAgent Skillです。具体的には、アクション前の明示的なゲート、ミスに対する即時フィードバック、選択肢の制約、機械的なルール強制です。Claude Code、Cursor、Windsurf、およびフックをサポートするあらゆるツールで動作します。

Claude-Code v2.1.76では、MCPの誘導機能、ワークツリーの最適化、および多数の修正が追加されました。
Claude-Code v2.1.76は、構造化入力のMCPエリシテーションサポートを追加し、monorepo効率化のためのworktree.sparsePathsを導入し、遅延ツールスキーマの消失、スラッシュコマンドの問題、Remote Controlセッションの安定性など20以上の問題を修正しました。