Запуск Gemma 4 26B-A4B: LM Studio 0.4.0 Headless CLI

Что добавляет LM Studio 0.4.0 для локального ИИ

LM Studio 0.4.0 кардинально меняет архитектуру, выделяя основной механизм вывода в llmster — автономный сервер. Это позволяет полностью запускать LM Studio из командной строки с помощью нового интерфейса lms, устраняя необходимость в графическом интерфейсе. Обновление делает его пригодным для использования на серверах без графического интерфейса, в CI/CD-пайплайнах, SSH-сессиях или для разработчиков, ориентированных на терминал.

Ключевые возможности в версии 0.4.0

Демон llmster: Фоновая служба, управляющая загрузкой моделей и выводом без настольного приложения
Интерфейс командной строки lms: Полноценный интерфейс командной строки для загрузки, запуска, общения и обслуживания моделей
Параллельная обработка запросов: Непрерывное пакетирование вместо последовательной очереди, позволяющее одновременно обрабатывать несколько запросов к одной модели
Сохраняющий состояние REST API: Новый эндпоинт /v1/chat, сохраняющий историю диалога между запросами
Интеграция MCP: Поддержка локального протокола контекста моделей с управлением доступом по ключам разрешений

Почему Gemma 4 26B-A4B подходит для локального использования

Google Gemma 4 26B-A4B использует архитектуру смеси экспертов со 128 экспертами плюс 1 общим экспертом, но активирует только 8 экспертов (3,8 млрд параметров) на каждый токен. Это означает, что она хорошо работает на оборудовании, которое не справилось бы с плотной 26-миллиардной моделью. На 14-дюймовом MacBook Pro M4 Pro с 48 ГБ унифицированной памяти она комфортно размещается и генерирует 51 токен/сек.

Модель набирает 82,6% на MMLU Pro и 88,3% на AIME 2026, что близко к плотному 31-миллиардному варианту (85,2% и 89,2%), при этом работает значительно быстрее. Она достигает рейтинга Эло ~1441, конкурируя с такими моделями, как Qwen 3.5 397B-A17B (~1450 Эло), которые требуют 100-600 млрд общих параметров.

Ключевые возможности включают максимальный контекст 256K, поддержку зрения для анализа скриншотов и диаграмм, встроенный вызов функций/инструментов и рассуждения с настраиваемыми режимами мышления.

Практическая настройка

В статье подробно описывается установка интерфейса командной строки lms и настройка Gemma 4 26B-A4B для локального вывода, который можно использовать с Claude Code. Автор отмечает значительное замедление при использовании внутри Claude Code по своему опыту.

📖 Read the full source: HN AI Agents

Запуск Google Gemma 4 26B-A4B локально с помощью LM Studio 0.4.0 в режиме командной строки (Headless CLI)

Что добавляет LM Studio 0.4.0 для локального ИИ

Ключевые возможности в версии 0.4.0

Почему Gemma 4 26B-A4B подходит для локального использования

Практическая настройка

👀 Смотрите также

Объявляем о Flyto Indexer: улучшенный ИИ для рефакторинга кода с анализом зависимостей источника.

SourceBridge: Инструмент с открытым исходным кодом для анализа кодовой базы с использованием локальных LLM

Лобстерная клетка: Докеризированная среда безопасности для самостоятельного хостинга OpenClaw на Raspberry Pi

Beacon: Открытая телеметрия конечных точек для локальных ИИ-агентов