Тестирование 88 малых моделей GGUF на Mac Mini M4 с 16 ГБ памяти.

Был разработан автоматизированный конвейер для загрузки, тестирования, загрузки на сервер и удаления моделей GGUF партиями на Mac Mini M4 с 16 ГБ унифицированной памяти. Конвейер протестировал 88 моделей, чтобы найти подходящие локальные LLM для данной конфигурации оборудования.
Ключевые выводы
- 9 из 88 моделей непригодны для использования на 16 ГБ ОЗУ — Любая модель, где веса плюс кэш KV превышают примерно 14 ГБ, вызывает интенсивное своппирование памяти, что приводит к TTFT > 10 секунд или < 0,1 токенов/секунду. Это включает все плотные модели 27B+.
- Только 4 модели находятся на границе Парето по пропускной способности и качеству — Все они имеют архитектуру LFM2-8B-A1B (MoE от LiquidAI с 1 млрд активных параметров). Дизайн MoE означает, что на каждый токен активно только около 1 млрд параметров, достигая 12-20 токенов/секунду, тогда как плотные модели 8B достигают максимум 5-7 токенов/секунду.
- Масштабирование контекста с 1k до 4k не влияет на производительность — Большинство моделей не показывают снижения пропускной способности, а некоторые варианты LFM2 даже ускоряются при контексте 4k.
- Масштабирование параллелизма слабое (0.57x при параллелизме 2 против идеальных 2.0x) — Mac Mini ограничен пропускной способностью памяти, поэтому рекомендуется запускать один запрос за раз.
Модели на границе Парето
Эти четыре модели превосходят все остальные как по скорости, так и по качеству:
- LFM2-8B-A1B-Q5_K_M (unsloth): 14.24 TPS в среднем, оценка качества 44.6
- LFM2-8B-A1B-Q8_0 (unsloth): 12.37 TPS в среднем, оценка качества 46.2
- LFM2-8B-A1B-UD-Q8_K_XL (unsloth): 12.18 TPS в среднем, оценка качества 47.9
- LFM2-8B-A1B-Q8_0 (LiquidAI): 12.18 TPS в среднем, оценка качества 51.2
Оценка качества использовала компактные подмножества (20 вопросов GSM8K + 60 вопросов MMLU) — полезно для ранжирования, но не для публикации абсолютных чисел.
Рекомендации
Для лучшего качества: LFM2-8B-A1B-Q8_0. Для скорости: Q5_K_M. Для баланса: UD-Q6_K_XL.
Технические детали
- Оборудование: Mac Mini M4, 16 ГБ унифицированной памяти, macOS 15.x
- Программное обеспечение: llama-server (llama.cpp)
- Методология: Числа пропускной способности — это p50 по нескольким запросам
- Данные: Все данные воспроизводимы из артефактов в репозитории
Весь конвейер автоматизирован и имеет открытый исходный код. CSV-данные со всеми 88 моделями и скрипты для тестирования доступны в репозитории.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

OpenClaw интегрирует функции из утечки кода Claude
Пользователь OpenClaw поручил своему боту проанализировать утекший код Claude (реализация на Rust от Instructkr) и выборочно перенес определенные архитектурные паттерны в свою систему OpenClaw. Интеграция сосредоточена на практических улучшениях, таких как автоматическое восстановление контекста при запуске, сжатие диалогов и фреймворк хуков до и после выполнения инструментов.

boxBot: Интеллектуальная колонка с открытым исходным кодом на базе Claude и Hailo AI
Разработчик под ником FunScore645 создал умную колонку boxBot, использующую Claude для агентного управления аппаратным обеспечением, Raspberry Pi, ускоритель ИИ Hailo и собственный SDK — проект с открытым исходным кодом на GitHub.

Nit: Замена Git на Zig, Оптимизированная для Эффективности Токенов ИИ-Агентов
Nit — это нативная замена Git, написанная на Zig, которая сокращает использование токенов на 35–87% при выполнении распространённых команд, таких как status, diff, log и show. Это достигается благодаря компактным настройкам вывода по умолчанию и прямой интеграции с libgit2, что исключает накладные расходы на подпроцессы.

Переработанная реализация кода Claude с открытым исходным кодом, адаптированная для совместимости с локальными моделями.
Разработчик исправил реализацию открытого кода Claude Code для работы с Ollama и локальными моделями, удалив жёсткие зависимости от клиента Anthropic. Теперь CLI автоматически определяет провайдеров по именам моделей и переменным окружения.