Результаты тестирования: 331 модель GGUF протестирована на Mac Mini M4 16 ГБ

Всестороннее тестирование проверило 331 модель GGUF на Mac Mini M4 с 16 ГБ унифицированной памяти, чтобы определить жизнеспособные варианты для локального развертывания. Конвейер тестирования работал неделями, автоматизируя оценку моделей, чтобы выйти за рамки субъективного выбора.
Ключевые выводы
31 из 331 модели оказались полностью непригодными для оборудования с 16 ГБ памяти, что определялось временем до первого токена (TTFT) > 10 секунд или пропускной способностью < 0,1 токенов/сек. Эти модели технически загружаются, но испытывают трэшинг памяти. Каждая протестированная плотная модель 27B+ попала в эту категорию, причем Qwen3.5-27B-heretic-v2-Q4_K_S показала худший результат: TTFT 97 секунд и 0,007 токенов/сек.
Когда веса модели плюс KV-кэш превышают примерно 14 ГБ, производительность «обваливается». Плотные модели выше 14B испытывают нехватку пропускной способности памяти на этом оборудовании.
Сравнение архитектур
Модели Mixture-of-Experts (MoE) доминируют на оборудовании с 16 ГБ памяти:
- Медианная скорость (токенов/сек): MoE 20,0 против Dense 4,4
- Медианное TTFT: MoE 0,66с против Dense 0,87с
- Максимальный балл качества: MoE 50,4 против Dense 46,2
MoE-модели с 1-3B активными параметрами помещаются в память GPU, достигая качества, сопоставимого с гораздо более крупными плотными моделями.
Парето-оптимальные модели
Только 11 моделей из 331 находятся на Парето-границе (ни одна другая модель не превосходит их одновременно по скорости и качеству):
- Ling-mini-2.0 (Q4_K_S, abliterated): 50,3 ток/с, качество 24,2
- Ling-mini-2.0 (IQ4_NL): 49,8 ток/с, качество 25,8
- Ling-mini-2.0 (Q3_K_L): 46,3 ток/с, качество 26,2
- Ling-mini-2.0 (Q3_K_L, abliterated): 46,0 ток/с, качество 28,3
- Ling-Coder-lite (IQ4_NL): 24,3 ток/с, качество 29,2
- Ling-Coder-lite (Q4_0): 23,6 ток/с, качество 31,3
- LFM2-8B-A1B (Q5_K_M): 19,7 ток/с, качество 44,6
- LFM2-8B-A1B (Q5_K_XL): 18,9 ток/с, качество 44,6
- LFM2-8B-A1B (Q8_0): 15,1 ток/с, качество 46,2
- LFM2-8B-A1B (Q8_K_XL): 14,9 ток/с, качество 47,9
- LFM2-8B-A1B (Q6_K_XL): 13,9 ток/с, качество 50,4
Каждая Парето-оптимальная модель имеет архитектуру MoE. Каждая другая модель из 331 строго доминируется одной из этих одиннадцати.
Производительность контекста и параллелизма
Масштабирование контекста показывает удивительно стабильную производительность: медианное отношение скорости (токенов/сек) для контекста 4096 против 1024 составляет 1,0x. Большинство моделей не показывают деградации при переходе с 1k на 4k контекста, а некоторые MoE-модели даже ускоряются при 4k. Пропускная способность памяти еще не достигла предела при 4k на этом оборудовании.
Параллелизм приводит к чистым потерям: при параллелизме 2 пропускная способность на запрос падает до 0,55x (идеал был бы 1,0x). Две параллельные запросы борются за одну и ту же шину унифицированной памяти. Рекомендация — выполнять один запрос за раз на оборудовании с 16 ГБ памяти.
Топ рекомендаций
- LFM2-8B-A1B-UD-Q6_K_XL (unsloth) — Лучшая в целом: качество 50,4 (наивысшее среди всех 331 моделей), 13,9 токенов/сек, TTFT 0,48с. MoE с 1B активными параметрами — архитектурно идеальна для 16 ГБ.
- LFM2-8B-A1B-Q5_K_M (unsloth) — Лучшая скорость среди качественных моделей: 19,7 токенов/сек (самый быстрый вариант LFM2), качество 44,6 (всего на 6 баллов ниже лучшего). Наименьший квант = наибольший запас для более длинных контекстов.
- LFM2-8B-A1B-UD-Q8_K_XL (unsloth) — Сбалансированный вариант производительности.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Перенаправляйте рутинную работу с Claude Code на Gemma через MCP-сервер offload-mcp
offload-mcp — это новый MCP-сервер, который позволяет Claude переносить рутинные задачи, такие как сообщения коммитов и сводки PR, на бесплатные API моделей (по умолчанию Gemma через Google GenAI API), экономя токены Claude и выполняя облегченную работу без ограничений локального оборудования.

Werld: Открытая симуляция искусственной жизни с эволюционирующими нейронными сетями
Werld — это симуляция искусственной жизни в реальном времени, где агенты с нейронными сетями NEAT эволюционируют собственную нейронную архитектуру, сенсорную обработку и поведение без жёстко заданных правил или функций вознаграждения. Симуляция начинается с 30 агентов на графе малого мира Уоттса-Строгаца с 64 сенсорными каналами, 7 непрерывными моторными функциями и 29 наследуемыми признаками генома.

WebClaw: Открытый MCP-сервер для извлечения веб-данных с Claude
WebClaw — это сервер MCP с открытым исходным кодом, созданный с помощью Claude Code, который предоставляет инструменты для извлечения веб-данных для Claude Desktop и Claude Code, решая ограничения встроенной функции web_fetch в Claude с помощью TLS-фингерпринтинга и оптимизации контента.

Автоматизируйте ежедневные брифинги в персонализированные подкасты Spotify с помощью OpenClaw и CLI Save to Spotify
OpenClaw запускается ежедневно в 7 утра, собирает Slack-треды, уведомления GitHub и календарь, обобщает в mp3 и загружает как приватный эпизод через CLI Save to Spotify. Работает на Free и Premium.