Бенчмарк Mac Mini: 34 токена/с с OpenClaw и LM Studio

Пользователь Reddit поделился конкретными тестами производительности для локального запуска большой языковой модели на Mac Mini с 32 ГБ оперативной памяти. В посте рассматривается нехватка конкретных данных о производительности для этой конфигурации оборудования.

Детали технической настройки

Пользователь сообщил о следующей конфигурации и результатах:

Версии программного обеспечения: OpenClaw 2026.3.8, LM Studio 0.4.6+1
Модель: Unsloth gpt-oss-20b-Q4_K_S.gguf
Размер контекста: 26035
Показатели производительности: 34 токена в секунду после первого запроса, время до первого токена 0,7 секунды

Конфигурация модели

Пользователь указал следующие настройки модели (все по умолчанию):

GPU offload = 18
CPU thread pool size = 7
Max concurrents = 4
Number of experts = 4
Flash attention = on

Квантование Q4_K_S указывает на то, что это 4-битная квантованная версия 20-миллиардной параметрической модели, которая снижает требования к памяти при сохранении разумной производительности. 32 ГБ оперативной памяти на Mac Mini достаточно для модели такого размера с заданной длиной контекста. Пропускная способность 34 токена в секунду является практическим ориентиром для разработчиков, рассматривающих аналогичные локальные настройки LLM на оборудовании Apple Silicon.

📖 Read the full source: r/openclaw

Бенчмарки производительности локальных LLM на Mac Mini с OpenClaw и LM Studio

Детали технической настройки

Конфигурация модели

👀 Смотрите также

Инди-разработчик представил CLI-инструмент 'Ideanator' для структурирования неопределенных идей с помощью локальных языковых моделей.

Контекст-Кит: Инструмент с открытым исходным кодом для настройки ИИ-ассистентов

Дообученная модель Qwen3-0.6B превосходит учителя размером 120B в структурированном вызове функций.

Тестирование показывает, что инструменты автоматизации браузера на основе ИИ различаются в 2,6 раза по стоимости токенов при одинаковой точности.