Bonsai 1.7B Modelo Ternario Alcanza 442 T/s en M4 Max con Núcleos Metal Ajustados Autónomamente

Bonsai 1.7B — un modelo ternario de PrismML — ha sido optimizado para Apple Silicon mediante kernels Metal ajustados de forma autónoma. El trabajo fue realizado por ata, un agente de ingeniería autónomo de Agents2Agents, que ejecutó una búsqueda evolutiva durante 6 horas para producir kernels GPU personalizados.
Resultados de las pruebas
Medidos contra llama.cpp original en el mismo commit de Bonsai/Q2_0 en un M4 Max (mismo archivo de modelo, misma configuración llama-bench -p 512 -n 128 -r 10 -fa 1 -ngl 99):
- Decodificación (tg128): 311.66 → 442.42 t/s (+42.0%)
- Prefill (pp512): 4250.32 → 4622.63 t/s (+8.8%)
Para contexto, el informe técnico de Bonsai 8B reporta una decodificación Q2_0 de 235 t/s en Apple Silicon con MLX. Esta versión alcanza 442 t/s en la variante 1.7B mediante kernels Metal personalizados (diferente framework, modelo más pequeño — indica de forma direccional el margen disponible en la pila).
Qué incluye
El paquete es una solución de inferencia optimizada lista para usar en Macs con chip M-series (solo arm64). Dentro del archivo tar.xz de 358 MB:
chat.sh— REPL interactivocomplete.sh— finalización no interactivabench.sh— reproduce las pruebas de rendimientoserver.sh— API HTTP compatible con OpenAI en :8080Bonsai-1.7B-Q2_0.gguf— el archivo del modelo (442 MB)
Inicio rápido
tar -xJf bonsai-1.7b-ternary-M4Max.tar.xz
cd bonsai-1.7b-ternary-M4Max
./chat.shDetalles técnicos
Cada kernel Metal fue creado y ajustado por ata sin intervención humana. El trabajo se centró en kernels GPU personalizados a nivel de las capas matvec / FFN / KV-cache, especializados para la forma del camino de decodificación de Bonsai 1.7B Q2_0. La salida numérica coincide con la versión de referencia (verificado mediante coincidencia del token top-1). Probado en M4 Max; se esperan mejoras proporcionales en M1+.
Advertencias
- Solo Apple Silicon (arm64) — no hay versiones para Mac Intel o solo CPU.
- Números obtenidos en M4 Max; M1/M2/M3 serán inferiores debido a menor ancho de banda de memoria.
- El modelo está cuantificado a Q2_0 — pequeña diferencia de precisión frente a F16.
📖 Lee la fuente completa: HN AI Agents
👀 Ver también

Desarrollador de OpenClaw Informa Problemas de Compactación de Contexto Durante la Construcción de Driftwatch V3
Un desarrollador de OpenClaw completó los sprints 2-4 de la construcción de Driftwatch V3, pero encontró problemas de compactación de contexto que borraron la memoria del agente de IA a mitad de la sesión, requiriendo intervención manual para restaurar el progreso utilizando resúmenes de sprint.

Yann LeCun's AMI recauda $1,000 millones para modelos de mundo de IA, desafiando el enfoque de LLM.
La startup AMI de Yann LeCun recaudó más de mil millones de dólares para desarrollar modelos de mundo de IA que comprendan el mundo físico, argumentando que los LLM por sí solos no alcanzarán la inteligencia a nivel humano. La empresa construirá sistemas con memoria persistente, razonamiento y capacidades de planificación para aplicaciones en manufactura, biomedicina y robótica.

India's Sarvam and Krutrim build frugal AI models for local needs
Las startups indias Sarvam AI y Krutrim están desarrollando modelos de IA soberanos optimizados para teléfonos inteligentes de gama baja y redes de bajo ancho de banda, con el modelo SarvamM de 24 mil millones de parámetros de Sarvam entrenado en 10 idiomas indios.

Los usuarios de OpenClaw informan altos costos de la API debido a solicitudes imprecisas; el desarrollador recomienda flujos de trabajo estructurados.
Un usuario de Reddit reporta una factura de $300 de Anthropic por OpenClaw debido a indicaciones vagas, con la comunidad señalando que el orquestador funciona mejor con intenciones claras y flujos de trabajo estructurados en lugar de actuar como un 'genio' para pensamientos deseosos.