O modelo ternário Bonsai 1.7B atinge 442 T/s no M4 Max com kernels Metal ajustados autonomamente

Bonsai 1.7B — um modelo ternário da PrismML — foi otimizado para Apple Silicon usando kernels Metal ajustados autonomamente. O trabalho foi realizado por ata, um agente de engenharia autônomo da Agents2Agents, que executou uma busca evolutiva agentiva por 6 horas para produzir kernels GPU personalizados.
Resultados de Benchmark
Medido contra o llama.cpp original no mesmo commit Bonsai/Q2_0 em um M4 Max (mesmo arquivo de modelo, mesma configuração llama-bench -p 512 -n 128 -r 10 -fa 1 -ngl 99):
- Decodificação (tg128): 311,66 → 442,42 t/s (+42,0%)
- Prefill (pp512): 4250,32 → 4622,63 t/s (+8,8%)
Para contexto, o whitepaper do Bonsai 8B relata decodificação Q2_0 do MLX original a 235 t/s em Apple Silicon. Esta compilação alcança 442 t/s na variante 1.7B via kernels Metal personalizados (framework diferente, modelo menor — indicativo direcional de margem na pilha).
O que está incluído
O pacote é um pacote de inferência otimizado plug-and-play para Macs da série M (apenas arm64). Dentro do tar.xz de 358 MB:
chat.sh— REPL interativocomplete.sh— conclusão não interativabench.sh— reproduz os benchmarksserver.sh— API HTTP compatível com OpenAI na porta :8080Bonsai-1.7B-Q2_0.gguf— o arquivo do modelo (442 MB)
Início rápido
tar -xJf bonsai-1.7b-ternary-M4Max.tar.xz
cd bonsai-1.7b-ternary-M4Max
./chat.shDetalhes técnicos
Cada kernel Metal foi criado e ajustado por ata sem intervenção humana. O trabalho focou em kernels GPU personalizados na camada matvec / FFN / KV-cache, especializados para a forma do caminho de decodificação Bonsai 1.7B Q2_0. A saída numérica corresponde à compilação de referência (verificado pela correspondência do token top-1). Testado no M4 Max; ganhos proporcionais esperados no M1+.
Ressalvas
- Apenas Apple Silicon (arm64) — sem Mac Intel ou compilações apenas CPU.
- Números do M4 Max; M1/M2/M3 serão menores devido à menor largura de banda de memória.
- Modelo é quantizado Q2_0 — pequeno delta de precisão em relação ao F16.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

Uso de água em centros de dados de IA na Califórnia: Estimativas a partir de modelos físicos e de IA
Uma análise da California WaterBlog usando física e quatro modelos de IA estima o uso de água por data centers de IA na Califórnia em 2.300–400.000 acre-pés/ano, com uma faixa realista de 32.000–290.000 acre-pés/ano — modesta em comparação com a agricultura.

HC1 de Taalas: Acelerando Inferência de IA com Silício Personalizado
A Taalas revela a plataforma HC1, oferecendo a inferência de IA mais rápida e de baixo custo do mundo por meio de design de hardware específico para modelos. Alcança 17 mil tokens/segundo no Llama 3.1 8B.

As ferramentas de IA precisam de integração prática para pequenas empresas, não apenas de hype.
A comunidade de IA foca em debates técnicos, enquanto pequenos empresários precisam que ferramentas existentes sejam integradas em seus fluxos de trabalho para lidar com tarefas repetitivas como agendamento, acompanhamentos e contabilidade.

Padrões de gastos do agente OpenClaw e falta de limites de gastos
Um desenvolvedor monitorou os gastos do agente OpenClaw por mais de dois meses e descobriu que a maioria dos agentes gasta em média US$ 40–80/mês em cobranças de API e serviços quando deixados sem supervisão, com picos ocorrendo nos fins de semana e durante a noite. O comportamento padrão é ilimitado, sem limite de gastos integrado.