Bonsai 1.7B Ternario: 442 T/s en M4 Max con Metal Optimizado

Bonsai 1.7B — un modelo ternario de PrismML — ha sido optimizado para Apple Silicon mediante kernels Metal ajustados de forma autónoma. El trabajo fue realizado por ata, un agente de ingeniería autónomo de Agents2Agents, que ejecutó una búsqueda evolutiva durante 6 horas para producir kernels GPU personalizados.

Resultados de las pruebas

Medidos contra llama.cpp original en el mismo commit de Bonsai/Q2_0 en un M4 Max (mismo archivo de modelo, misma configuración llama-bench -p 512 -n 128 -r 10 -fa 1 -ngl 99):

Decodificación (tg128): 311.66 → 442.42 t/s (+42.0%)
Prefill (pp512): 4250.32 → 4622.63 t/s (+8.8%)

Para contexto, el informe técnico de Bonsai 8B reporta una decodificación Q2_0 de 235 t/s en Apple Silicon con MLX. Esta versión alcanza 442 t/s en la variante 1.7B mediante kernels Metal personalizados (diferente framework, modelo más pequeño — indica de forma direccional el margen disponible en la pila).

Qué incluye

El paquete es una solución de inferencia optimizada lista para usar en Macs con chip M-series (solo arm64). Dentro del archivo tar.xz de 358 MB:

chat.sh — REPL interactivo
complete.sh — finalización no interactiva
bench.sh — reproduce las pruebas de rendimiento
server.sh — API HTTP compatible con OpenAI en :8080
Bonsai-1.7B-Q2_0.gguf — el archivo del modelo (442 MB)

Inicio rápido

tar -xJf bonsai-1.7b-ternary-M4Max.tar.xz
cd bonsai-1.7b-ternary-M4Max
./chat.sh

Detalles técnicos

Cada kernel Metal fue creado y ajustado por ata sin intervención humana. El trabajo se centró en kernels GPU personalizados a nivel de las capas matvec / FFN / KV-cache, especializados para la forma del camino de decodificación de Bonsai 1.7B Q2_0. La salida numérica coincide con la versión de referencia (verificado mediante coincidencia del token top-1). Probado en M4 Max; se esperan mejoras proporcionales en M1+.

Advertencias

Solo Apple Silicon (arm64) — no hay versiones para Mac Intel o solo CPU.
Números obtenidos en M4 Max; M1/M2/M3 serán inferiores debido a menor ancho de banda de memoria.
El modelo está cuantificado a Q2_0 — pequeña diferencia de precisión frente a F16.

📖 Lee la fuente completa: HN AI Agents

Bonsai 1.7B Modelo Ternario Alcanza 442 T/s en M4 Max con Núcleos Metal Ajustados Autónomamente

Resultados de las pruebas

Qué incluye

Inicio rápido

Detalles técnicos

Advertencias

👀 Ver también

Desarrollador de OpenClaw Informa Problemas de Compactación de Contexto Durante la Construcción de Driftwatch V3

Yann LeCun's AMI recauda $1,000 millones para modelos de mundo de IA, desafiando el enfoque de LLM.

India's Sarvam and Krutrim build frugal AI models for local needs

Los usuarios de OpenClaw informan altos costos de la API debido a solicitudes imprecisas; el desarrollador recomienda flujos de trabajo estructurados.