Модель Bonsai 1.7B с троичным представлением достигает 442 T/s на M4 Max благодаря автономно настроенным ядрам Metal

✍️ OpenClawRadar📅 Опубликовано: 4 мая 2026 г.🔗 Source
Модель Bonsai 1.7B с троичным представлением достигает 442 T/s на M4 Max благодаря автономно настроенным ядрам Metal
Ad

Bonsai 1.7B — тернарная модель от PrismML — была оптимизирована для Apple Silicon с использованием автономно настроенных Metal-ядер. Работу выполнил ata, автономный инженерный агент от Agents2Agents, который в течение 6 часов проводил эволюционный поиск для создания пользовательских GPU-ядер.

Результаты тестов

Измерено относительно исходного llama.cpp на той же версии Bonsai/Q2_0 на M4 Max (один и тот же файл модели, та же конфигурация llama-bench -p 512 -n 128 -r 10 -fa 1 -ngl 99):

  • Декодирование (tg128): 311,66 → 442,42 т/с (+42,0%)
  • Префилл (pp512): 4250,32 → 4622,63 т/с (+8,8%)

Для контекста: в техническом описании Bonsai 8B сообщается о скорости декодирования MLX-upstream Q2_0 в 235 т/с на Apple Silicon. Эта сборка достигает 442 т/с на варианте 1.7B благодаря пользовательским Metal-ядрам (другой фреймворк, меньшая модель — ориентировочно указывает на резервы в стеке).

Что включено

Сборка представляет собой готовый пакет оптимизированного вывода для M-серии Mac (только arm64). Внутри 358 МБ tar.xz:

  • chat.sh — интерактивный REPL
  • complete.sh — неинтерактивное завершение
  • bench.sh — воспроизведение тестов
  • server.sh — HTTP API, совместимый с OpenAI, на :8080
  • Bonsai-1.7B-Q2_0.gguf — файл модели (442 МБ)
Ad

Быстрый старт

tar -xJf bonsai-1.7b-ternary-M4Max.tar.xz
cd bonsai-1.7b-ternary-M4Max
./chat.sh

Технические детали

Каждое Metal-ядро было создано и настроено ata без участия человека. Работа была сосредоточена на пользовательских GPU-ядрах на уровне matvec / FFN / KV-кэша, специализированных по форме для пути декодирования Bonsai 1.7B Q2_0. Численные результаты совпадают с эталонной сборкой (проверено совпадение top-1 токена). Протестировано на M4 Max; пропорциональный прирост ожидается на M1+.

Ограничения

  • Только Apple Silicon (arm64) — нет сборок для Intel Mac или только для CPU.
  • Цифры с M4 Max; на M1/M2/M3 будут ниже из-за меньшей пропускной способности памяти.
  • Модель квантована до Q2_0 — небольшое отклонение точности от F16.

📖 Читать полный источник: HN AI Agents

Ad

👀 Смотрите также

Тестирование OpenClaw на UmbrelOS: Что нужно знать
Новости

Тестирование OpenClaw на UmbrelOS: Что нужно знать

Интеграция OpenClaw с UmbrelOS находится на стадии изучения, что может предложить новую среду для усовершенствованных инструментов кодирования с использованием ИИ.

OpenClawRadar
OpenClaw, апрельские обновления: месяц кардинальных изменений и подорванного доверия
Новости

OpenClaw, апрельские обновления: месяц кардинальных изменений и подорванного доверия

Апрельские обновления OpenClaw демонстрируют шаблон: новые функции и исправления поставляются вместе с критическими ошибками. Сценарии после установки, удаляющие файлы, дыры в безопасности и сломанные навыки подрывают доверие.

OpenClawRadar
Открытый Коготь Ночной Тест: Шаг Вперед в Автоматизации ИИ
Новости

Открытый Коготь Ночной Тест: Шаг Вперед в Автоматизации ИИ

Тест Open Claw Overnight демонстрирует потенциал ИИ-агентов для кодирования, трансформируя ночную обработку в бесшовную автоматизацию. Изучите ключевые выводы и обсуждения из сообщества r/openclaw.

OpenClawRadar
Исследование выявило культурные предубеждения языковых моделей в ответах на простые медицинские запросы.
Новости

Исследование выявило культурные предубеждения языковых моделей в ответах на простые медицинские запросы.

Поведенческое исследование протестировало модели Claude 3.5 Sonnet, GPT-4o и Grok-2 с запросом 'У меня болит голова. Что мне делать?'. Grok-2 последовательно рекомендовал индийские безрецептурные бренды, такие как Dolo-650 и Crocin, в то время как GPT-4o упоминал Tylenol/Advil, что выявило предвзятость обучающих данных.

OpenClawRadar