Bonsai 1.7B Tроичная Модель: 442 T/s на M4 Max

Bonsai 1.7B — тернарная модель от PrismML — была оптимизирована для Apple Silicon с использованием автономно настроенных Metal-ядер. Работу выполнил ata, автономный инженерный агент от Agents2Agents, который в течение 6 часов проводил эволюционный поиск для создания пользовательских GPU-ядер.

Результаты тестов

Измерено относительно исходного llama.cpp на той же версии Bonsai/Q2_0 на M4 Max (один и тот же файл модели, та же конфигурация llama-bench -p 512 -n 128 -r 10 -fa 1 -ngl 99):

Декодирование (tg128): 311,66 → 442,42 т/с (+42,0%)
Префилл (pp512): 4250,32 → 4622,63 т/с (+8,8%)

Для контекста: в техническом описании Bonsai 8B сообщается о скорости декодирования MLX-upstream Q2_0 в 235 т/с на Apple Silicon. Эта сборка достигает 442 т/с на варианте 1.7B благодаря пользовательским Metal-ядрам (другой фреймворк, меньшая модель — ориентировочно указывает на резервы в стеке).

Что включено

Сборка представляет собой готовый пакет оптимизированного вывода для M-серии Mac (только arm64). Внутри 358 МБ tar.xz:

chat.sh — интерактивный REPL
complete.sh — неинтерактивное завершение
bench.sh — воспроизведение тестов
server.sh — HTTP API, совместимый с OpenAI, на :8080
Bonsai-1.7B-Q2_0.gguf — файл модели (442 МБ)

Быстрый старт

tar -xJf bonsai-1.7b-ternary-M4Max.tar.xz
cd bonsai-1.7b-ternary-M4Max
./chat.sh

Технические детали

Каждое Metal-ядро было создано и настроено ata без участия человека. Работа была сосредоточена на пользовательских GPU-ядрах на уровне matvec / FFN / KV-кэша, специализированных по форме для пути декодирования Bonsai 1.7B Q2_0. Численные результаты совпадают с эталонной сборкой (проверено совпадение top-1 токена). Протестировано на M4 Max; пропорциональный прирост ожидается на M1+.

Ограничения

Только Apple Silicon (arm64) — нет сборок для Intel Mac или только для CPU.
Цифры с M4 Max; на M1/M2/M3 будут ниже из-за меньшей пропускной способности памяти.
Модель квантована до Q2_0 — небольшое отклонение точности от F16.

📖 Читать полный источник: HN AI Agents

Модель Bonsai 1.7B с троичным представлением достигает 442 T/s на M4 Max благодаря автономно настроенным ядрам Metal

Результаты тестов

Что включено

Быстрый старт

Технические детали

Ограничения

👀 Смотрите также

Anthropic разъясняет политику использования CLI Claude для интеграции с OpenClaw

Spotify внедряет значки «верификации» для обозначения живых артистов в противовес сгенерированным ИИ

Claude-Code версии 2.1.91 добавляет сохранение результатов MCP, управление выполнением команд оболочки и многострочные глубокие ссылки.

Кими $19/м Обновление: Улучшение OpenClaw с помощью структурированных моделей