Запуск Google Gemma 4 26B-A4B локально с помощью LM Studio 0.4.0 в режиме командной строки (Headless CLI)

Что добавляет LM Studio 0.4.0 для локального ИИ
LM Studio 0.4.0 кардинально меняет архитектуру, выделяя основной механизм вывода в llmster — автономный сервер. Это позволяет полностью запускать LM Studio из командной строки с помощью нового интерфейса lms, устраняя необходимость в графическом интерфейсе. Обновление делает его пригодным для использования на серверах без графического интерфейса, в CI/CD-пайплайнах, SSH-сессиях или для разработчиков, ориентированных на терминал.
Ключевые возможности в версии 0.4.0
- Демон llmster: Фоновая служба, управляющая загрузкой моделей и выводом без настольного приложения
- Интерфейс командной строки lms: Полноценный интерфейс командной строки для загрузки, запуска, общения и обслуживания моделей
- Параллельная обработка запросов: Непрерывное пакетирование вместо последовательной очереди, позволяющее одновременно обрабатывать несколько запросов к одной модели
- Сохраняющий состояние REST API: Новый эндпоинт /v1/chat, сохраняющий историю диалога между запросами
- Интеграция MCP: Поддержка локального протокола контекста моделей с управлением доступом по ключам разрешений
Почему Gemma 4 26B-A4B подходит для локального использования
Google Gemma 4 26B-A4B использует архитектуру смеси экспертов со 128 экспертами плюс 1 общим экспертом, но активирует только 8 экспертов (3,8 млрд параметров) на каждый токен. Это означает, что она хорошо работает на оборудовании, которое не справилось бы с плотной 26-миллиардной моделью. На 14-дюймовом MacBook Pro M4 Pro с 48 ГБ унифицированной памяти она комфортно размещается и генерирует 51 токен/сек.
Модель набирает 82,6% на MMLU Pro и 88,3% на AIME 2026, что близко к плотному 31-миллиардному варианту (85,2% и 89,2%), при этом работает значительно быстрее. Она достигает рейтинга Эло ~1441, конкурируя с такими моделями, как Qwen 3.5 397B-A17B (~1450 Эло), которые требуют 100-600 млрд общих параметров.
Ключевые возможности включают максимальный контекст 256K, поддержку зрения для анализа скриншотов и диаграмм, встроенный вызов функций/инструментов и рассуждения с настраиваемыми режимами мышления.
Практическая настройка
В статье подробно описывается установка интерфейса командной строки lms и настройка Gemma 4 26B-A4B для локального вывода, который можно использовать с Claude Code. Автор отмечает значительное замедление при использовании внутри Claude Code по своему опыту.
📖 Read the full source: HN AI Agents
👀 Смотрите также

Мобильное приложение QCAI добавляет управление шлюзом OpenClaw с нативным VPN Tailscale
QCAI для iOS и Android теперь интегрируется с OpenClaw Control Center, позволяя напрямую управлять шлюзом с мобильных устройств через защищённые VPN-туннели Tailscale без открытых портов.

Markdown как протокол для агентного пользовательского интерфейса с потоковым выполнением
Прототип использует Markdown в качестве унифицированного протокола для потоковой передачи текста, исполняемого кода и данных в одном ответе AI-агентов. Он поддерживает потоковое выполнение, где код запускается построчно по мере поступления, и примитив mount() для создания React UI с потоком данных между клиентом, сервером и LLM.

Файловая система памяти Claude Code: Практичная альтернатива векторным базам данных
Claude Code реализует файловую систему памяти, используя файлы .md с метаданными во frontmatter и индексный файл MEMORY.md, избегая векторных баз данных и конвейеров эмбеддингов за счет сканирования файлов, создания манифестов и использования небольшой модели для выбора релевантных воспоминаний.

Навык Claude для Devvit повышает точность генерации кода с 73% до 100%.
Разработчик создал структурированный слой подсказок SKILL.md для Claude, который предоставляет контекст для платформы Devvit от Reddit, улучшив результаты оценки с 7/10 до 10/10 по типичным задачам Devvit за счет предотвращения конкретных ошибок времени выполнения.