Модель Bonsai 1.7B с троичным представлением достигает 442 T/s на M4 Max благодаря автономно настроенным ядрам Metal

Bonsai 1.7B — тернарная модель от PrismML — была оптимизирована для Apple Silicon с использованием автономно настроенных Metal-ядер. Работу выполнил ata, автономный инженерный агент от Agents2Agents, который в течение 6 часов проводил эволюционный поиск для создания пользовательских GPU-ядер.
Результаты тестов
Измерено относительно исходного llama.cpp на той же версии Bonsai/Q2_0 на M4 Max (один и тот же файл модели, та же конфигурация llama-bench -p 512 -n 128 -r 10 -fa 1 -ngl 99):
- Декодирование (tg128): 311,66 → 442,42 т/с (+42,0%)
- Префилл (pp512): 4250,32 → 4622,63 т/с (+8,8%)
Для контекста: в техническом описании Bonsai 8B сообщается о скорости декодирования MLX-upstream Q2_0 в 235 т/с на Apple Silicon. Эта сборка достигает 442 т/с на варианте 1.7B благодаря пользовательским Metal-ядрам (другой фреймворк, меньшая модель — ориентировочно указывает на резервы в стеке).
Что включено
Сборка представляет собой готовый пакет оптимизированного вывода для M-серии Mac (только arm64). Внутри 358 МБ tar.xz:
chat.sh— интерактивный REPLcomplete.sh— неинтерактивное завершениеbench.sh— воспроизведение тестовserver.sh— HTTP API, совместимый с OpenAI, на :8080Bonsai-1.7B-Q2_0.gguf— файл модели (442 МБ)
Быстрый старт
tar -xJf bonsai-1.7b-ternary-M4Max.tar.xz
cd bonsai-1.7b-ternary-M4Max
./chat.shТехнические детали
Каждое Metal-ядро было создано и настроено ata без участия человека. Работа была сосредоточена на пользовательских GPU-ядрах на уровне matvec / FFN / KV-кэша, специализированных по форме для пути декодирования Bonsai 1.7B Q2_0. Численные результаты совпадают с эталонной сборкой (проверено совпадение top-1 токена). Протестировано на M4 Max; пропорциональный прирост ожидается на M1+.
Ограничения
- Только Apple Silicon (arm64) — нет сборок для Intel Mac или только для CPU.
- Цифры с M4 Max; на M1/M2/M3 будут ниже из-за меньшей пропускной способности памяти.
- Модель квантована до Q2_0 — небольшое отклонение точности от F16.
📖 Читать полный источник: HN AI Agents
👀 Смотрите также

Anthropic разъясняет политику использования CLI Claude для интеграции с OpenClaw
Anthropic подтвердила, что использование Claude CLI в стиле OpenClaw снова разрешено, что позволяет разработчикам напрямую повторно использовать существующие логины Claude CLI. В документации подробно описаны методы аутентификации как по API-ключу, так и через CLI, а также параметры конфигурации для моделей Claude 4.6, быстрого режима и кэширования промптов.

Spotify внедряет значки «верификации» для обозначения живых артистов в противовес сгенерированным ИИ
Spotify добавляет зеленый значок «Подтверждено Spotify» к профилям артистов, соответствующих критериям, таким как привязанные аккаунты в соцсетях, даты концертов или мерч, чтобы отличить живых музыкантов от ИИ-сгенерированных.

Claude-Code версии 2.1.91 добавляет сохранение результатов MCP, управление выполнением команд оболочки и многострочные глубокие ссылки.
Claude-Code v2.1.91 представляет переопределение сохранения результатов инструментов MCP через аннотацию _meta["anthropic/maxResultSizeChars"] с поддержкой до 500 тыс. символов, добавляет настройку disableSkillShellExecution и включает многострочные запросы в глубоких ссылках claude-cli://open?q= с кодированными переводами строк.

Кими $19/м Обновление: Улучшение OpenClaw с помощью структурированных моделей
Kimi представляет свое последнее обновление, стоимостью $19 в месяц, ориентированное на улучшение структуры моделей в OpenClaw. Это обновление обещает упрощенные операции и улучшенные функции автоматизации.