Модель Bonsai 1.7B с троичным представлением достигает 442 T/s на M4 Max благодаря автономно настроенным ядрам Metal

Bonsai 1.7B — тернарная модель от PrismML — была оптимизирована для Apple Silicon с использованием автономно настроенных Metal-ядер. Работу выполнил ata, автономный инженерный агент от Agents2Agents, который в течение 6 часов проводил эволюционный поиск для создания пользовательских GPU-ядер.
Результаты тестов
Измерено относительно исходного llama.cpp на той же версии Bonsai/Q2_0 на M4 Max (один и тот же файл модели, та же конфигурация llama-bench -p 512 -n 128 -r 10 -fa 1 -ngl 99):
- Декодирование (tg128): 311,66 → 442,42 т/с (+42,0%)
- Префилл (pp512): 4250,32 → 4622,63 т/с (+8,8%)
Для контекста: в техническом описании Bonsai 8B сообщается о скорости декодирования MLX-upstream Q2_0 в 235 т/с на Apple Silicon. Эта сборка достигает 442 т/с на варианте 1.7B благодаря пользовательским Metal-ядрам (другой фреймворк, меньшая модель — ориентировочно указывает на резервы в стеке).
Что включено
Сборка представляет собой готовый пакет оптимизированного вывода для M-серии Mac (только arm64). Внутри 358 МБ tar.xz:
chat.sh— интерактивный REPLcomplete.sh— неинтерактивное завершениеbench.sh— воспроизведение тестовserver.sh— HTTP API, совместимый с OpenAI, на :8080Bonsai-1.7B-Q2_0.gguf— файл модели (442 МБ)
Быстрый старт
tar -xJf bonsai-1.7b-ternary-M4Max.tar.xz
cd bonsai-1.7b-ternary-M4Max
./chat.shТехнические детали
Каждое Metal-ядро было создано и настроено ata без участия человека. Работа была сосредоточена на пользовательских GPU-ядрах на уровне matvec / FFN / KV-кэша, специализированных по форме для пути декодирования Bonsai 1.7B Q2_0. Численные результаты совпадают с эталонной сборкой (проверено совпадение top-1 токена). Протестировано на M4 Max; пропорциональный прирост ожидается на M1+.
Ограничения
- Только Apple Silicon (arm64) — нет сборок для Intel Mac или только для CPU.
- Цифры с M4 Max; на M1/M2/M3 будут ниже из-за меньшей пропускной способности памяти.
- Модель квантована до Q2_0 — небольшое отклонение точности от F16.
📖 Читать полный источник: HN AI Agents
👀 Смотрите также

Тестирование OpenClaw на UmbrelOS: Что нужно знать
Интеграция OpenClaw с UmbrelOS находится на стадии изучения, что может предложить новую среду для усовершенствованных инструментов кодирования с использованием ИИ.

OpenClaw, апрельские обновления: месяц кардинальных изменений и подорванного доверия
Апрельские обновления OpenClaw демонстрируют шаблон: новые функции и исправления поставляются вместе с критическими ошибками. Сценарии после установки, удаляющие файлы, дыры в безопасности и сломанные навыки подрывают доверие.

Открытый Коготь Ночной Тест: Шаг Вперед в Автоматизации ИИ
Тест Open Claw Overnight демонстрирует потенциал ИИ-агентов для кодирования, трансформируя ночную обработку в бесшовную автоматизацию. Изучите ключевые выводы и обсуждения из сообщества r/openclaw.

Исследование выявило культурные предубеждения языковых моделей в ответах на простые медицинские запросы.
Поведенческое исследование протестировало модели Claude 3.5 Sonnet, GPT-4o и Grok-2 с запросом 'У меня болит голова. Что мне делать?'. Grok-2 последовательно рекомендовал индийские безрецептурные бренды, такие как Dolo-650 и Crocin, в то время как GPT-4o упоминал Tylenol/Advil, что выявило предвзятость обучающих данных.