Bonsai 1.7B erreicht 442 T/s auf M4 Max

Bonsai 1.7B – ein ternäres Modell von PrismML – wurde für Apple Silicon mit autonom optimierten Metal-Kerneln optimiert. Die Arbeit wurde von ata durchgeführt, einem autonomen Engineering-Agenten von Agents2Agents, der sechs Stunden lang eine agentische Evolutionssuche durchführte, um maßgeschneiderte GPU-Kernel zu erzeugen.

Benchmark-Ergebnisse

Gemessen am unveränderten llama.cpp auf demselben Bonsai/Q2_0-Commit auf einem M4 Max (gleiche Modelldatei, gleiche llama-bench -p 512 -n 128 -r 10 -fa 1 -ngl 99-Konfiguration):

Decode (tg128): 311,66 → 442,42 t/s (+42,0%)
Prefill (pp512): 4250,32 → 4622,63 t/s (+8,8%)

Zum Vergleich: Das Bonsai 8B-Whitepaper gibt für MLX-Upstream Q2_0 Decode 235 t/s auf Apple Silicon an. Dieser Build erreicht 442 t/s auf der 1,7B-Variante mittels benutzerdefinierter Metal-Kernel (anderes Framework, kleineres Modell – richtungsweisend für das Potenzial im Stack).

Enthaltene Komponenten

Der Build ist ein einsatzbereites optimiertes Inferenzpaket für M-Serie-Macs (nur arm64). In der 358 MB großen tar.xz-Datei:

chat.sh – interaktive REPL
complete.sh – nicht-interaktive Textvervollständigung
bench.sh – reproduziert die Benchmarks
server.sh – OpenAI-kompatible HTTP-API auf :8080
Bonsai-1.7B-Q2_0.gguf – die Modelldatei (442 MB)

Schnellstart

tar -xJf bonsai-1.7b-ternary-M4Max.tar.xz
cd bonsai-1.7b-ternary-M4Max
./chat.sh

Technische Details

Jeder Metal-Kernel wurde von ata ohne menschliches Eingreifen erstellt und optimiert. Die Arbeit konzentrierte sich auf benutzerdefinierte GPU-Kernel auf der Matvec/FFN/KV-Cache-Ebene, formspezialisiert für den Bonsai 1.7B Q2_0-Decode-Pfad. Die numerischen Ergebnisse stimmen mit dem Referenzbuild überein (Übereinstimmung des Top-1-Tokens verifiziert). Getestet auf M4 Max; proportionale Verbesserungen werden auf M1+ erwartet.

Einschränkungen

Nur Apple Silicon (arm64) – keine Intel-Macs oder reine CPU-Builds.
Zahlen vom M4 Max; M1/M2/M3 werden aufgrund geringerer Speicherbandbreite niedriger ausfallen.
Modell ist mit Q2_0 quantisiert – kleiner Genauigkeitsunterschied zu F16.

📖 Vollständige Quelle lesen: HN AI Agents

Bonsai 1.7B Ternäres Modell erreicht 442 T/s auf M4 Max mit autonom abgestimmten Metal-Kernels

Benchmark-Ergebnisse

Enthaltene Komponenten

Schnellstart

Technische Details

Einschränkungen

👀 Siehe auch

Unterschiede zwischen der Verwendung von Claude über GitHub Copilot und als VS Code-Erweiterung

OpenClaw-Agenten treten in einer KI-exklusiven Pokémon-Rot-Liga an

Berkeley-Studie: Alle KI-Überarbeitungseingaben treiben Prosa in Richtung Formalität, selbst bei "Stimme bewahren"

Uber verbrennt KI-Budget für 2026 in 4 Monaten mit Claude Code — 500–2.000 Dollar pro Ingenieur monatlich