Bonsai 1.7B Atinge 442 T/s no M4 Max com Kernels Metal Otimizados

Bonsai 1.7B — um modelo ternário da PrismML — foi otimizado para Apple Silicon usando kernels Metal ajustados autonomamente. O trabalho foi realizado por ata, um agente de engenharia autônomo da Agents2Agents, que executou uma busca evolutiva agentiva por 6 horas para produzir kernels GPU personalizados.

Resultados de Benchmark

Medido contra o llama.cpp original no mesmo commit Bonsai/Q2_0 em um M4 Max (mesmo arquivo de modelo, mesma configuração llama-bench -p 512 -n 128 -r 10 -fa 1 -ngl 99):

Decodificação (tg128): 311,66 → 442,42 t/s (+42,0%)
Prefill (pp512): 4250,32 → 4622,63 t/s (+8,8%)

Para contexto, o whitepaper do Bonsai 8B relata decodificação Q2_0 do MLX original a 235 t/s em Apple Silicon. Esta compilação alcança 442 t/s na variante 1.7B via kernels Metal personalizados (framework diferente, modelo menor — indicativo direcional de margem na pilha).

O que está incluído

O pacote é um pacote de inferência otimizado plug-and-play para Macs da série M (apenas arm64). Dentro do tar.xz de 358 MB:

chat.sh — REPL interativo
complete.sh — conclusão não interativa
bench.sh — reproduz os benchmarks
server.sh — API HTTP compatível com OpenAI na porta :8080
Bonsai-1.7B-Q2_0.gguf — o arquivo do modelo (442 MB)

Início rápido

tar -xJf bonsai-1.7b-ternary-M4Max.tar.xz
cd bonsai-1.7b-ternary-M4Max
./chat.sh

Detalhes técnicos

Cada kernel Metal foi criado e ajustado por ata sem intervenção humana. O trabalho focou em kernels GPU personalizados na camada matvec / FFN / KV-cache, especializados para a forma do caminho de decodificação Bonsai 1.7B Q2_0. A saída numérica corresponde à compilação de referência (verificado pela correspondência do token top-1). Testado no M4 Max; ganhos proporcionais esperados no M1+.

Ressalvas

Apenas Apple Silicon (arm64) — sem Mac Intel ou compilações apenas CPU.
Números do M4 Max; M1/M2/M3 serão menores devido à menor largura de banda de memória.
Modelo é quantizado Q2_0 — pequeno delta de precisão em relação ao F16.

📖 Leia a fonte completa: HN AI Agents