Gemma-4 26B-A4B を M5 MacBook Air で実行：8Wで300トークン/秒

ある開発者が32GB M5 MacBook AirでOpencodeを搭載したGemma-4-26B-A4Bをテストし、ローカルAIコーディングタスクにおいて実用的なパフォーマンスを発揮することを確認しました。

パフォーマンスベンチマーク

テストされた具体的な構成は、32GB M5 MacBook Air上で実行されたgemma-4-26B-A4B-it-UD-IQ4_XSでした。低電力モードでは、以下の結果を達成しました：

プロンプト処理：毎秒300トークン
生成：毎秒12トークン
電力消費：8W
動作中の発熱やファンノイズなし

M5 MacBook Airは、以前のハードウェアと比較して大幅な改善を示しました：

M1 Max 64GB（Maxが省電力モードでない場合でも）よりも約25%高速なプロンプト処理
Opencode実行時のバッテリー駆動時間：M1 Maxの約2時間に対し約6時間
これは、バッテリー容量が小さい（M1 Maxの70Whに対し53.8Wh）にもかかわらず達成

実用的なユースケース

開発者はこのセットアップが、ノートパソコンからのエージェント的コーディング動作において「実際に使用可能」であると評価しました。以前は、M1 Max 64GBでLLMを実行することは「いじりやおもちゃのようなユースケース」に限定され、長いコンテキストタスクを効果的に処理できませんでした。シンプルなPythonのスネークゲームを作成することはできても、エージェント的コーディングや大規模なコードベースへの貢献は「ややぎこちない」ものでした。

M5のパフォーマンスは、カフェや電車通勤など、インターネット接続が不安定なモバイルユースケースにおいて実用的です。

他のモデルとの比較

開発者はOpencodeを搭載したGemma-4-26Bをクローズドソースの代替モデルと比較しました：

彼らのテストでは、Claude CodeやAntigravityを置き換えるものではない
Gemma-4は「現在のクローズドソースフロンティアモデルよりもはるかに多くの手助けを必要とする」
Claude CodeやAntigravityを搭載したGemini-3.1-Proと比較して、応答は「やや淡白」と表現されている
しかし、Gemini-2.5-Proの利用制限に達し、Gemini-2.5-Flashを使用せざるを得なくなるよりも、Gemma-4-26Bを選択することを好む

開発者は、これが重要な進歩であると指摘しています。なぜなら「この種のエージェント的コーディングは、2024年末時点ではフロンティアモデルでも最先端／実質的に不可能だった」からです。

📖 Read the full source: r/LocalLLaMA