ベンチマークによると、スマートフォンから家庭内チャットアプリケーションにおいて、小規模な4Bモデルが大規模LLMを上回る性能を示しています。

電話から自宅チャットベンチマーク結果
最近のベンチマークでは、推論を自宅コンピューターで実行する電話から自宅チャットアプリケーション向けに8つのローカルLLMが評価されました。テストはMac mini M4 Pro 24Gbハードウェア上で、640回の評価(8モデル×8データセット×10サンプル)を実施しました。
適合度計算式と重み付け
総合適合度計算式では3つの要素を重み付けしました:チャットUX 50%、速度 30%、短文品質 20%。この重み付けは、遅延が最も重要なモバイルアプリケーションにおいてユーザーエクスペリエンスを優先するものです。
主な発見
- Gemma3:4Bはテスト対象の中で最小モデルにもかかわらず、総合適合度スコア88.7で優勝
- 最低TTFT(11.2秒)、最高スループット(89.3トークン/秒)、最も低い温度(45°C)を達成
- GPT-OSS:20Bのような大規模モデルはタスクの70%を通過したが、平均TTFT25.4秒のため6位に留まった
- 温度性能は大きく異なりました:Qwen3:14Bは83°C、DeepSeek-R1:14Bは81°Cまで上昇
- Magistral:24Bはタイムアウトループを引き起こしGPU温度97°Cに達したため最終ランキングから除外
小規模モデルが優れた理由
このベンチマークは、電話チャットアプリケーションでは、生の精度よりも最初のトークン応答(TTFT)の速さと発熱負荷の低さが重要であることを明らかにしました。77.5%の精度を達成しても最初のトークン待ち時間25秒を要するモデルは、72.5%の精度でも11秒で応答するモデルに負けます。温度差は個人用ハードウェアの信頼性と寿命にとって重要です。
独立分析
同じ640評価データセットを使用したClaudeによる独立分析では、信頼性とTTFTをより積極的に重み付けし、若干異なるトップ4順序を導き出しました。これはKPIの重み付けが絶対的な真実ではなく選択であることを確認しています。
ユースケースの考慮事項
著者は、コーディングや長文執筆など異なるユースケースでは、重み付け計算式が完全に逆転し、速度やチャットUXよりも品質が優先されると指摘しています。
📖 詳細はこちら: r/LocalLLaMA
👀 See Also

最近のCEO調査によると、AIは生産性向上に貢献していない
AIの広範な採用にもかかわらず、6,000人の経営幹部を対象とした調査では、生産性と雇用への影響はほとんどなく、1980年代のIT時代に特定された生産性パラドックスを彷彿とさせています。

OpenClaw 2026.3.2 リリース:プロダクションの秘訣、PDFツール、そしてより安全なデフォルト設定
OpenClaw 2026.3.2では、フェイルファースト動作を備えた本番環境対応のシークレットシステム、AnthropicおよびGoogleモデルをサポートするネイティブPDFツール、新規インストール時のツールアクセスを制限するより安全なデフォルト設定が導入されました。

インドのSarvamとKrutrimは、現地のニーズに応じた倹約的なAIモデルを構築しています。
インドのスタートアップSarvam AIとKrutrimは、ローエンドスマートフォンや低帯域幅ネットワーク向けに最適化された独自のAIモデルを開発しており、Sarvamの240億パラメータを持つSarvamMモデルは10のインド言語でトレーニングされています。

開発者はClaude禁止とMiMoクレジット問題の後、Minimax 2.7に切り替えました
ある開発者が、Claudeがプラットフォームから禁止された後、OpenClaw用の代替AIモデルを複数テストした経験を共有しました。エージェント的なタスクや自動化にはGLM 5.1と5 Turboが無効で、MiMo V2 Proのクレジットシステムは非効率と判断し、最終的に寛大なクォータと自動化タスク処理能力からMinimax 2.7を選択しました。