Тестирование 88 малых моделей GGUF на Mac Mini M4 с 16 ГБ памяти.

✍️ OpenClawRadar📅 Опубликовано: 2 марта 2026 г.🔗 Source
Тестирование 88 малых моделей GGUF на Mac Mini M4 с 16 ГБ памяти.
Ad

Был разработан автоматизированный конвейер для загрузки, тестирования, загрузки на сервер и удаления моделей GGUF партиями на Mac Mini M4 с 16 ГБ унифицированной памяти. Конвейер протестировал 88 моделей, чтобы найти подходящие локальные LLM для данной конфигурации оборудования.

Ключевые выводы

  • 9 из 88 моделей непригодны для использования на 16 ГБ ОЗУ — Любая модель, где веса плюс кэш KV превышают примерно 14 ГБ, вызывает интенсивное своппирование памяти, что приводит к TTFT > 10 секунд или < 0,1 токенов/секунду. Это включает все плотные модели 27B+.
  • Только 4 модели находятся на границе Парето по пропускной способности и качеству — Все они имеют архитектуру LFM2-8B-A1B (MoE от LiquidAI с 1 млрд активных параметров). Дизайн MoE означает, что на каждый токен активно только около 1 млрд параметров, достигая 12-20 токенов/секунду, тогда как плотные модели 8B достигают максимум 5-7 токенов/секунду.
  • Масштабирование контекста с 1k до 4k не влияет на производительность — Большинство моделей не показывают снижения пропускной способности, а некоторые варианты LFM2 даже ускоряются при контексте 4k.
  • Масштабирование параллелизма слабое (0.57x при параллелизме 2 против идеальных 2.0x) — Mac Mini ограничен пропускной способностью памяти, поэтому рекомендуется запускать один запрос за раз.
Ad

Модели на границе Парето

Эти четыре модели превосходят все остальные как по скорости, так и по качеству:

  • LFM2-8B-A1B-Q5_K_M (unsloth): 14.24 TPS в среднем, оценка качества 44.6
  • LFM2-8B-A1B-Q8_0 (unsloth): 12.37 TPS в среднем, оценка качества 46.2
  • LFM2-8B-A1B-UD-Q8_K_XL (unsloth): 12.18 TPS в среднем, оценка качества 47.9
  • LFM2-8B-A1B-Q8_0 (LiquidAI): 12.18 TPS в среднем, оценка качества 51.2

Оценка качества использовала компактные подмножества (20 вопросов GSM8K + 60 вопросов MMLU) — полезно для ранжирования, но не для публикации абсолютных чисел.

Рекомендации

Для лучшего качества: LFM2-8B-A1B-Q8_0. Для скорости: Q5_K_M. Для баланса: UD-Q6_K_XL.

Технические детали

  • Оборудование: Mac Mini M4, 16 ГБ унифицированной памяти, macOS 15.x
  • Программное обеспечение: llama-server (llama.cpp)
  • Методология: Числа пропускной способности — это p50 по нескольким запросам
  • Данные: Все данные воспроизводимы из артефактов в репозитории

Весь конвейер автоматизирован и имеет открытый исходный код. CSV-данные со всеми 88 моделями и скрипты для тестирования доступны в репозитории.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

OpenClaw интегрирует функции из утечки кода Claude
Инструменты

OpenClaw интегрирует функции из утечки кода Claude

Пользователь OpenClaw поручил своему боту проанализировать утекший код Claude (реализация на Rust от Instructkr) и выборочно перенес определенные архитектурные паттерны в свою систему OpenClaw. Интеграция сосредоточена на практических улучшениях, таких как автоматическое восстановление контекста при запуске, сжатие диалогов и фреймворк хуков до и после выполнения инструментов.

OpenClawRadar
boxBot: Интеллектуальная колонка с открытым исходным кодом на базе Claude и Hailo AI
Инструменты

boxBot: Интеллектуальная колонка с открытым исходным кодом на базе Claude и Hailo AI

Разработчик под ником FunScore645 создал умную колонку boxBot, использующую Claude для агентного управления аппаратным обеспечением, Raspberry Pi, ускоритель ИИ Hailo и собственный SDK — проект с открытым исходным кодом на GitHub.

OpenClawRadar
Nit: Замена Git на Zig, Оптимизированная для Эффективности Токенов ИИ-Агентов
Инструменты

Nit: Замена Git на Zig, Оптимизированная для Эффективности Токенов ИИ-Агентов

Nit — это нативная замена Git, написанная на Zig, которая сокращает использование токенов на 35–87% при выполнении распространённых команд, таких как status, diff, log и show. Это достигается благодаря компактным настройкам вывода по умолчанию и прямой интеграции с libgit2, что исключает накладные расходы на подпроцессы.

OpenClawRadar
Переработанная реализация кода Claude с открытым исходным кодом, адаптированная для совместимости с локальными моделями.
Инструменты

Переработанная реализация кода Claude с открытым исходным кодом, адаптированная для совместимости с локальными моделями.

Разработчик исправил реализацию открытого кода Claude Code для работы с Ollama и локальными моделями, удалив жёсткие зависимости от клиента Anthropic. Теперь CLI автоматически определяет провайдеров по именам моделей и переменным окружения.

OpenClawRadar