O modelo ternário Bonsai 1.7B atinge 442 T/s no M4 Max com kernels Metal ajustados autonomamente

✍️ OpenClawRadar📅 Publicado: May 4, 2026🔗 Source
O modelo ternário Bonsai 1.7B atinge 442 T/s no M4 Max com kernels Metal ajustados autonomamente
Ad

Bonsai 1.7B — um modelo ternário da PrismML — foi otimizado para Apple Silicon usando kernels Metal ajustados autonomamente. O trabalho foi realizado por ata, um agente de engenharia autônomo da Agents2Agents, que executou uma busca evolutiva agentiva por 6 horas para produzir kernels GPU personalizados.

Resultados de Benchmark

Medido contra o llama.cpp original no mesmo commit Bonsai/Q2_0 em um M4 Max (mesmo arquivo de modelo, mesma configuração llama-bench -p 512 -n 128 -r 10 -fa 1 -ngl 99):

  • Decodificação (tg128): 311,66 → 442,42 t/s (+42,0%)
  • Prefill (pp512): 4250,32 → 4622,63 t/s (+8,8%)

Para contexto, o whitepaper do Bonsai 8B relata decodificação Q2_0 do MLX original a 235 t/s em Apple Silicon. Esta compilação alcança 442 t/s na variante 1.7B via kernels Metal personalizados (framework diferente, modelo menor — indicativo direcional de margem na pilha).

O que está incluído

O pacote é um pacote de inferência otimizado plug-and-play para Macs da série M (apenas arm64). Dentro do tar.xz de 358 MB:

  • chat.sh — REPL interativo
  • complete.sh — conclusão não interativa
  • bench.sh — reproduz os benchmarks
  • server.sh — API HTTP compatível com OpenAI na porta :8080
  • Bonsai-1.7B-Q2_0.gguf — o arquivo do modelo (442 MB)
Ad

Início rápido

tar -xJf bonsai-1.7b-ternary-M4Max.tar.xz
cd bonsai-1.7b-ternary-M4Max
./chat.sh

Detalhes técnicos

Cada kernel Metal foi criado e ajustado por ata sem intervenção humana. O trabalho focou em kernels GPU personalizados na camada matvec / FFN / KV-cache, especializados para a forma do caminho de decodificação Bonsai 1.7B Q2_0. A saída numérica corresponde à compilação de referência (verificado pela correspondência do token top-1). Testado no M4 Max; ganhos proporcionais esperados no M1+.

Ressalvas

  • Apenas Apple Silicon (arm64) — sem Mac Intel ou compilações apenas CPU.
  • Números do M4 Max; M1/M2/M3 serão menores devido à menor largura de banda de memória.
  • Modelo é quantizado Q2_0 — pequeno delta de precisão em relação ao F16.

📖 Leia a fonte completa: HN AI Agents

Ad

👀 See Also

Uso de água em centros de dados de IA na Califórnia: Estimativas a partir de modelos físicos e de IA
News

Uso de água em centros de dados de IA na Califórnia: Estimativas a partir de modelos físicos e de IA

Uma análise da California WaterBlog usando física e quatro modelos de IA estima o uso de água por data centers de IA na Califórnia em 2.300–400.000 acre-pés/ano, com uma faixa realista de 32.000–290.000 acre-pés/ano — modesta em comparação com a agricultura.

OpenClawRadar
HC1 de Taalas: Acelerando Inferência de IA com Silício Personalizado
News

HC1 de Taalas: Acelerando Inferência de IA com Silício Personalizado

A Taalas revela a plataforma HC1, oferecendo a inferência de IA mais rápida e de baixo custo do mundo por meio de design de hardware específico para modelos. Alcança 17 mil tokens/segundo no Llama 3.1 8B.

OpenClawRadar
As ferramentas de IA precisam de integração prática para pequenas empresas, não apenas de hype.
News

As ferramentas de IA precisam de integração prática para pequenas empresas, não apenas de hype.

A comunidade de IA foca em debates técnicos, enquanto pequenos empresários precisam que ferramentas existentes sejam integradas em seus fluxos de trabalho para lidar com tarefas repetitivas como agendamento, acompanhamentos e contabilidade.

OpenClawRadar
Padrões de gastos do agente OpenClaw e falta de limites de gastos
News

Padrões de gastos do agente OpenClaw e falta de limites de gastos

Um desenvolvedor monitorou os gastos do agente OpenClaw por mais de dois meses e descobriu que a maioria dos agentes gasta em média US$ 40–80/mês em cobranças de API e serviços quando deixados sem supervisão, com picos ocorrendo nos fins de semana e durante a noite. O comportamento padrão é ilimitado, sem limite de gastos integrado.

OpenClawRadar