Модель Bonsai 1.7B с троичным представлением достигает 442 T/s на M4 Max благодаря автономно настроенным ядрам Metal

✍️ OpenClawRadar📅 Опубликовано: 4 мая 2026 г.🔗 Source
Модель Bonsai 1.7B с троичным представлением достигает 442 T/s на M4 Max благодаря автономно настроенным ядрам Metal
Ad

Bonsai 1.7B — тернарная модель от PrismML — была оптимизирована для Apple Silicon с использованием автономно настроенных Metal-ядер. Работу выполнил ata, автономный инженерный агент от Agents2Agents, который в течение 6 часов проводил эволюционный поиск для создания пользовательских GPU-ядер.

Результаты тестов

Измерено относительно исходного llama.cpp на той же версии Bonsai/Q2_0 на M4 Max (один и тот же файл модели, та же конфигурация llama-bench -p 512 -n 128 -r 10 -fa 1 -ngl 99):

  • Декодирование (tg128): 311,66 → 442,42 т/с (+42,0%)
  • Префилл (pp512): 4250,32 → 4622,63 т/с (+8,8%)

Для контекста: в техническом описании Bonsai 8B сообщается о скорости декодирования MLX-upstream Q2_0 в 235 т/с на Apple Silicon. Эта сборка достигает 442 т/с на варианте 1.7B благодаря пользовательским Metal-ядрам (другой фреймворк, меньшая модель — ориентировочно указывает на резервы в стеке).

Что включено

Сборка представляет собой готовый пакет оптимизированного вывода для M-серии Mac (только arm64). Внутри 358 МБ tar.xz:

  • chat.sh — интерактивный REPL
  • complete.sh — неинтерактивное завершение
  • bench.sh — воспроизведение тестов
  • server.sh — HTTP API, совместимый с OpenAI, на :8080
  • Bonsai-1.7B-Q2_0.gguf — файл модели (442 МБ)
Ad

Быстрый старт

tar -xJf bonsai-1.7b-ternary-M4Max.tar.xz
cd bonsai-1.7b-ternary-M4Max
./chat.sh

Технические детали

Каждое Metal-ядро было создано и настроено ata без участия человека. Работа была сосредоточена на пользовательских GPU-ядрах на уровне matvec / FFN / KV-кэша, специализированных по форме для пути декодирования Bonsai 1.7B Q2_0. Численные результаты совпадают с эталонной сборкой (проверено совпадение top-1 токена). Протестировано на M4 Max; пропорциональный прирост ожидается на M1+.

Ограничения

  • Только Apple Silicon (arm64) — нет сборок для Intel Mac или только для CPU.
  • Цифры с M4 Max; на M1/M2/M3 будут ниже из-за меньшей пропускной способности памяти.
  • Модель квантована до Q2_0 — небольшое отклонение точности от F16.

📖 Читать полный источник: HN AI Agents

Ad

👀 Смотрите также

Anthropic разъясняет политику использования CLI Claude для интеграции с OpenClaw
Новости

Anthropic разъясняет политику использования CLI Claude для интеграции с OpenClaw

Anthropic подтвердила, что использование Claude CLI в стиле OpenClaw снова разрешено, что позволяет разработчикам напрямую повторно использовать существующие логины Claude CLI. В документации подробно описаны методы аутентификации как по API-ключу, так и через CLI, а также параметры конфигурации для моделей Claude 4.6, быстрого режима и кэширования промптов.

OpenClawRadar
Spotify внедряет значки «верификации» для обозначения живых артистов в противовес сгенерированным ИИ
Новости

Spotify внедряет значки «верификации» для обозначения живых артистов в противовес сгенерированным ИИ

Spotify добавляет зеленый значок «Подтверждено Spotify» к профилям артистов, соответствующих критериям, таким как привязанные аккаунты в соцсетях, даты концертов или мерч, чтобы отличить живых музыкантов от ИИ-сгенерированных.

OpenClawRadar
Claude-Code версии 2.1.91 добавляет сохранение результатов MCP, управление выполнением команд оболочки и многострочные глубокие ссылки.
Новости

Claude-Code версии 2.1.91 добавляет сохранение результатов MCP, управление выполнением команд оболочки и многострочные глубокие ссылки.

Claude-Code v2.1.91 представляет переопределение сохранения результатов инструментов MCP через аннотацию _meta["anthropic/maxResultSizeChars"] с поддержкой до 500 тыс. символов, добавляет настройку disableSkillShellExecution и включает многострочные запросы в глубоких ссылках claude-cli://open?q= с кодированными переводами строк.

OpenClawRadar
Кими $19/м Обновление: Улучшение OpenClaw с помощью структурированных моделей
Новости

Кими $19/м Обновление: Улучшение OpenClaw с помощью структурированных моделей

Kimi представляет свое последнее обновление, стоимостью $19 в месяц, ориентированное на улучшение структуры моделей в OpenClaw. Это обновление обещает упрощенные операции и улучшенные функции автоматизации.

OpenClawRadar