LM Studio 0.4.0 ヘッドレスCLI：Gemma 4 26B-A4Bを51t/sで実行

LM Studio 0.4.0がローカルAIにもたらすもの

LM Studio 0.4.0は、コア推論エンジンをスタンドアロンサーバーであるllmsterに分離することで、アーキテクチャを根本的に変更します。これにより、新しいlms CLIを使用してLM Studioを完全にコマンドラインから実行できるようになり、GUIは不要になります。このアップデートにより、ヘッドレスサーバー、CI/CDパイプライン、SSHセッション、またはターミナル中心の開発者でも使用可能になります。

0.4.0の主な機能

llmsterデーモン: デスクトップアプリなしでモデルの読み込みと推論を管理するバックグラウンドサービス
lms CLI: モデルのダウンロード、読み込み、チャット、提供のための完全なコマンドラインインターフェース
並列リクエスト処理: 順次キューイングではなく連続バッチ処理により、同じモデルへの複数のリクエストを同時に実行可能
ステートフルREST API: リクエスト間で会話履歴を維持する新しい/v1/chatエンドポイント
MCP統合: パーミッションキーゲーティングによるローカルModel Context Protocolサポート

ローカル使用におけるGemma 4 26B-A4Bの利点

GoogleのGemma 4 26B-A4Bは、128のエキスパートと1つの共有エキスパートを持つ混合エキスパートアーキテクチャを採用していますが、トークンごとに8つのエキスパート（38億パラメータ）のみを活性化します。これは、密な26Bモデルを扱えないハードウェアでも十分に動作することを意味します。48GB統合メモリを搭載した14インチMacBook Pro M4 Proでは、快適に動作し、51トークン/秒で生成します。

このモデルは、MMLU Proで82.6%、AIME 2026で88.3%のスコアを達成し、密な31Bバリアント（85.2%と89.2%）に近い性能を発揮しながら、劇的に高速に動作します。約1441のEloスコアを達成し、100-600Bの総パラメータを必要とするQwen 3.5 397B-A17B（約1450 Elo）のようなモデルと競合します。

主な機能には、256Kの最大コンテキスト、スクリーンショットや図の分析のためのビジョンサポート、ネイティブの関数/ツール呼び出し、設定可能な思考モードによる推論が含まれます。