4Bモデルが大規模LLMを上回る：スマホ向けベンチマーク結果

電話から自宅チャットベンチマーク結果

最近のベンチマークでは、推論を自宅コンピューターで実行する電話から自宅チャットアプリケーション向けに8つのローカルLLMが評価されました。テストはMac mini M4 Pro 24Gbハードウェア上で、640回の評価（8モデル×8データセット×10サンプル）を実施しました。

適合度計算式と重み付け

総合適合度計算式では3つの要素を重み付けしました：チャットUX 50%、速度 30%、短文品質 20%。この重み付けは、遅延が最も重要なモバイルアプリケーションにおいてユーザーエクスペリエンスを優先するものです。

主な発見

Gemma3:4Bはテスト対象の中で最小モデルにもかかわらず、総合適合度スコア88.7で優勝
最低TTFT（11.2秒）、最高スループット（89.3トークン/秒）、最も低い温度（45°C）を達成
GPT-OSS:20Bのような大規模モデルはタスクの70%を通過したが、平均TTFT25.4秒のため6位に留まった
温度性能は大きく異なりました：Qwen3:14Bは83°C、DeepSeek-R1:14Bは81°Cまで上昇
Magistral:24Bはタイムアウトループを引き起こしGPU温度97°Cに達したため最終ランキングから除外

小規模モデルが優れた理由

このベンチマークは、電話チャットアプリケーションでは、生の精度よりも最初のトークン応答（TTFT）の速さと発熱負荷の低さが重要であることを明らかにしました。77.5%の精度を達成しても最初のトークン待ち時間25秒を要するモデルは、72.5%の精度でも11秒で応答するモデルに負けます。温度差は個人用ハードウェアの信頼性と寿命にとって重要です。