Результаты тестирования: 331 модель GGUF протестирована на Mac Mini M4 16 ГБ

✍️ OpenClawRadar📅 Опубликовано: 26 марта 2026 г.🔗 Source

Всестороннее тестирование проверило 331 модель GGUF на Mac Mini M4 с 16 ГБ унифицированной памяти, чтобы определить жизнеспособные варианты для локального развертывания. Конвейер тестирования работал неделями, автоматизируя оценку моделей, чтобы выйти за рамки субъективного выбора.

Ключевые выводы

31 из 331 модели оказались полностью непригодными для оборудования с 16 ГБ памяти, что определялось временем до первого токена (TTFT) > 10 секунд или пропускной способностью < 0,1 токенов/сек. Эти модели технически загружаются, но испытывают трэшинг памяти. Каждая протестированная плотная модель 27B+ попала в эту категорию, причем Qwen3.5-27B-heretic-v2-Q4_K_S показала худший результат: TTFT 97 секунд и 0,007 токенов/сек.

Когда веса модели плюс KV-кэш превышают примерно 14 ГБ, производительность «обваливается». Плотные модели выше 14B испытывают нехватку пропускной способности памяти на этом оборудовании.

Сравнение архитектур

Модели Mixture-of-Experts (MoE) доминируют на оборудовании с 16 ГБ памяти:

Медианная скорость (токенов/сек): MoE 20,0 против Dense 4,4
Медианное TTFT: MoE 0,66с против Dense 0,87с
Максимальный балл качества: MoE 50,4 против Dense 46,2

MoE-модели с 1-3B активными параметрами помещаются в память GPU, достигая качества, сопоставимого с гораздо более крупными плотными моделями.

Парето-оптимальные модели

Только 11 моделей из 331 находятся на Парето-границе (ни одна другая модель не превосходит их одновременно по скорости и качеству):

Ling-mini-2.0 (Q4_K_S, abliterated): 50,3 ток/с, качество 24,2
Ling-mini-2.0 (IQ4_NL): 49,8 ток/с, качество 25,8
Ling-mini-2.0 (Q3_K_L): 46,3 ток/с, качество 26,2
Ling-mini-2.0 (Q3_K_L, abliterated): 46,0 ток/с, качество 28,3
Ling-Coder-lite (IQ4_NL): 24,3 ток/с, качество 29,2
Ling-Coder-lite (Q4_0): 23,6 ток/с, качество 31,3
LFM2-8B-A1B (Q5_K_M): 19,7 ток/с, качество 44,6
LFM2-8B-A1B (Q5_K_XL): 18,9 ток/с, качество 44,6
LFM2-8B-A1B (Q8_0): 15,1 ток/с, качество 46,2
LFM2-8B-A1B (Q8_K_XL): 14,9 ток/с, качество 47,9
LFM2-8B-A1B (Q6_K_XL): 13,9 ток/с, качество 50,4

Каждая Парето-оптимальная модель имеет архитектуру MoE. Каждая другая модель из 331 строго доминируется одной из этих одиннадцати.

Производительность контекста и параллелизма

Масштабирование контекста показывает удивительно стабильную производительность: медианное отношение скорости (токенов/сек) для контекста 4096 против 1024 составляет 1,0x. Большинство моделей не показывают деградации при переходе с 1k на 4k контекста, а некоторые MoE-модели даже ускоряются при 4k. Пропускная способность памяти еще не достигла предела при 4k на этом оборудовании.

Параллелизм приводит к чистым потерям: при параллелизме 2 пропускная способность на запрос падает до 0,55x (идеал был бы 1,0x). Две параллельные запросы борются за одну и ту же шину унифицированной памяти. Рекомендация — выполнять один запрос за раз на оборудовании с 16 ГБ памяти.

Топ рекомендаций

LFM2-8B-A1B-UD-Q6_K_XL (unsloth) — Лучшая в целом: качество 50,4 (наивысшее среди всех 331 моделей), 13,9 токенов/сек, TTFT 0,48с. MoE с 1B активными параметрами — архитектурно идеальна для 16 ГБ.
LFM2-8B-A1B-Q5_K_M (unsloth) — Лучшая скорость среди качественных моделей: 19,7 токенов/сек (самый быстрый вариант LFM2), качество 44,6 (всего на 6 баллов ниже лучшего). Наименьший квант = наибольший запас для более длинных контекстов.
LFM2-8B-A1B-UD-Q8_K_XL (unsloth) — Сбалансированный вариант производительности.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Инструменты

Memex: Плагин с открытым исходным кодом для расширения памяти в Claude Cowork

Memex — это плагин с открытым исходным кодом, который предоставляет Claude Cowork постоянную память между сессиями с помощью многоуровневой системы загрузки контекста. После однократного запуска команды /memex:init, Claude самостоятельно знакомится с проектом примерно за 20 секунд в каждой сессии и продолжает с того места, где вы остановились.

28 мар. 2026 г., 00:45 UTC

OpenClawRadar

Инструменты

Сервер Savecraft MCP предоставляет Клоду точные данные по Magic: The Gathering.

Savecraft — это сервер MCP с открытым исходным кодом, который локально анализирует файл Player.log из MTG Arena, синхронизирует состояние игры и предоставляет Claude доступ к 12 экспертным справочным модулям, созданным на основе реальных данных Magic: The Gathering. Инструмент предотвращает галлюцинации Claude в отношении названий карт и правил, предоставляя доступ к фактическим данным Arena, рекомендациям по драфту от 17Lands и полной базе данных Scryfall.

6 апр. 2026 г., 16:45 UTC

OpenClawRadar

Инструменты

Библиотека рабочих процессов Claude: 10 готовых AI-сценариев для нетехнических пользователей

Бесплатный репозиторий на GitHub предоставляет 10 полных AI-воркфлоу для пользователей Claude без технического бэкграунда, включая системы для учёбы, исследований, письма, бизнеса, создания контента, принятия решений, обучения, поиска работы, продуктивности и планирования жизни.

15 апр. 2026 г., 05:45 UTC

OpenClawRadar

Инструменты

Files.md: Открытое локальное приложение для заметок в Markdown с дизайном, дружественным к LLM

Files.md — это открытое, работающее в первую очередь локально приложение для заметок, задач и дневников на основе Markdown. 886 звёзд, написано на Go, работает офлайн, синхронизируется через iCloud/Dropbox/самостоятельно размещённый сервер или бета-версию на app.files.md.

18 мая 2026 г., 22:16 UTC

OpenClawRadar