Тестирование 88 малых моделей GGUF на Mac Mini M4 с 16 ГБ памяти.

✍️ OpenClawRadar📅 Опубликовано: 2 марта 2026 г.🔗 Source

Был разработан автоматизированный конвейер для загрузки, тестирования, загрузки на сервер и удаления моделей GGUF партиями на Mac Mini M4 с 16 ГБ унифицированной памяти. Конвейер протестировал 88 моделей, чтобы найти подходящие локальные LLM для данной конфигурации оборудования.

Ключевые выводы

9 из 88 моделей непригодны для использования на 16 ГБ ОЗУ — Любая модель, где веса плюс кэш KV превышают примерно 14 ГБ, вызывает интенсивное своппирование памяти, что приводит к TTFT > 10 секунд или < 0,1 токенов/секунду. Это включает все плотные модели 27B+.
Только 4 модели находятся на границе Парето по пропускной способности и качеству — Все они имеют архитектуру LFM2-8B-A1B (MoE от LiquidAI с 1 млрд активных параметров). Дизайн MoE означает, что на каждый токен активно только около 1 млрд параметров, достигая 12-20 токенов/секунду, тогда как плотные модели 8B достигают максимум 5-7 токенов/секунду.
Масштабирование контекста с 1k до 4k не влияет на производительность — Большинство моделей не показывают снижения пропускной способности, а некоторые варианты LFM2 даже ускоряются при контексте 4k.
Масштабирование параллелизма слабое (0.57x при параллелизме 2 против идеальных 2.0x) — Mac Mini ограничен пропускной способностью памяти, поэтому рекомендуется запускать один запрос за раз.

Модели на границе Парето

Эти четыре модели превосходят все остальные как по скорости, так и по качеству:

LFM2-8B-A1B-Q5_K_M (unsloth): 14.24 TPS в среднем, оценка качества 44.6
LFM2-8B-A1B-Q8_0 (unsloth): 12.37 TPS в среднем, оценка качества 46.2
LFM2-8B-A1B-UD-Q8_K_XL (unsloth): 12.18 TPS в среднем, оценка качества 47.9
LFM2-8B-A1B-Q8_0 (LiquidAI): 12.18 TPS в среднем, оценка качества 51.2

Оценка качества использовала компактные подмножества (20 вопросов GSM8K + 60 вопросов MMLU) — полезно для ранжирования, но не для публикации абсолютных чисел.

Технические детали

Оборудование: Mac Mini M4, 16 ГБ унифицированной памяти, macOS 15.x
Программное обеспечение: llama-server (llama.cpp)
Методология: Числа пропускной способности — это p50 по нескольким запросам
Данные: Все данные воспроизводимы из артефактов в репозитории

Весь конвейер автоматизирован и имеет открытый исходный код. CSV-данные со всеми 88 моделями и скрипты для тестирования доступны в репозитории.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Инструменты

Homebutler: OpenClaw Skill для управления Homelab через Telegram

Homebutler — это единый бинарный файл Go (~13 МБ, без зависимостей), который работает как навык OpenClaw для управления домашними лабораториями из чата Telegram. Он отслеживает серверы, перезапускает Docker-контейнеры, пробуждает машины, сканирует сети и предупреждает о скачках ресурсов без SSH-сессий или входа в панель управления.

1 мар. 2026 г., 04:45 UTC

OpenClawRadar

Инструменты

Фазовое удержание: Система управления ИИ-агентами, вдохновлённая методами воспитания детей

Phaselock — это открытый навык для агентов, реализующий четыре механизма контроля для ИИ-агентов: явные шлюзы перед действием, мгновенную обратную связь при ошибках, ограниченный выбор и механическое применение правил. Работает с Claude Code, Cursor, Windsurf и инструментами, поддерживающими хуки.

30 мар. 2026 г., 15:45 UTC

OpenClawRadar

Инструменты

context-link v1.0.0: Локальный MCP-сервер сокращает использование токенов в Claude Code на 91%

context-link v1.0.0 — это локальный MCP-сервер, который индексирует код с помощью Tree-sitter, предоставляя Claude только необходимые символы, зависимости и структуру, сокращая использование токенов на 91% в отдельных случаях и на 70–80% при выполнении полных задач.

30 мар. 2026 г., 20:45 UTC

OpenClawRadar

Инструменты

Claude Octopus v8.48: Плагин для оркестрации нескольких ИИ в рабочих процессах разработки

Claude Octopus v8.48 — это плагин с открытым исходным кодом, который координирует параллельную работу моделей ИИ Claude, Codex и Gemini с различными ролями на разных этапах разработки. Он включает в себя порог консенсуса в 75% между фазами, новые контекстные окна для сложных задач и специальные команды, такие как /octo:embrace для полного цикла разработки.

11 мар. 2026 г., 03:45 UTC

OpenClawRadar

Ключевые выводы

Модели на границе Парето

Рекомендации

Технические детали

👀 Смотрите также

Homebutler: OpenClaw Skill для управления Homelab через Telegram

Фазовое удержание: Система управления ИИ-агентами, вдохновлённая методами воспитания детей

context-link v1.0.0: Локальный MCP-сервер сокращает использование токенов в Claude Code на 91%

Claude Octopus v8.48: Плагин для оркестрации нескольких ИИ в рабочих процессах разработки