Бенчмарки производительности локальных LLM на Mac Mini с OpenClaw и LM Studio

Пользователь Reddit поделился конкретными тестами производительности для локального запуска большой языковой модели на Mac Mini с 32 ГБ оперативной памяти. В посте рассматривается нехватка конкретных данных о производительности для этой конфигурации оборудования.
Детали технической настройки
Пользователь сообщил о следующей конфигурации и результатах:
- Версии программного обеспечения: OpenClaw 2026.3.8, LM Studio 0.4.6+1
- Модель: Unsloth gpt-oss-20b-Q4_K_S.gguf
- Размер контекста: 26035
- Показатели производительности: 34 токена в секунду после первого запроса, время до первого токена 0,7 секунды
Конфигурация модели
Пользователь указал следующие настройки модели (все по умолчанию):
- GPU offload = 18
- CPU thread pool size = 7
- Max concurrents = 4
- Number of experts = 4
- Flash attention = on
Квантование Q4_K_S указывает на то, что это 4-битная квантованная версия 20-миллиардной параметрической модели, которая снижает требования к памяти при сохранении разумной производительности. 32 ГБ оперативной памяти на Mac Mini достаточно для модели такого размера с заданной длиной контекста. Пропускная способность 34 токена в секунду является практическим ориентиром для разработчиков, рассматривающих аналогичные локальные настройки LLM на оборудовании Apple Silicon.
📖 Read the full source: r/openclaw
👀 Смотрите также

Gemma 4 26B против Qwen 3.5 27B: Бенчмарк рабочих процессов для локального бизнеса на RTX 4090
Разработчик протестировал Gemma 4 26B и Qwen 3.5 27B на рабочей станции с RTX 4090, выполнив 18 реальных задач бизнес-оператора. Gemma победила со счётом 13-5, показав более высокую скорость и лучшую дисциплину в ежедневной исполнительной работе, в то время как Qwen преуспела в более широком стратегическом мышлении.

Протокол Pilot: P2P-сетевой стек для ИИ-агентов, созданный с помощью Claude
Разработчик создал Pilot Protocol — чисто пользовательский одноранговый стек виртуальной сети на Go, специально предназначенный для автономных ИИ-агентов, обеспечивающий прямое взаимодействие без централизованной инфраструктуры. Протокол использует мультиплексирование UDP, обход NAT и сквозное шифрование, при этом тесты показывают пропускную способность 89 МБ/с локально и 2,1 МБ/с при межконтинентальном соединении по глобальной сети.

Claude Code v2.1.90 добавляет поддержку мыши с флагом CLAUDE_CODE_NO_FLICKER.
Anthropic выпустила Claude Code v2.1.90 с новой функцией, которая включает поддержку мыши в интерфейсе чата. Пользователи могут активировать её, установив переменную окружения CLAUDE_CODE_NO_FLICKER=1 перед запуском claude.

CAP: Плагин для строки состояния Claude Code, устанавливаемый через /plugin install
CAP (Claude Allowance Pulse) — это плагин для строки состояния Claude Code, который устанавливается через /plugin install без использования npm, curl или jq. Он отображает использование модели, сессионные и недельные лимиты, использование контекстного окна и стоимость сессии в терминале.