Bonsai 1.7B Ternäres Modell erreicht 442 T/s auf M4 Max mit autonom abgestimmten Metal-Kernels

Bonsai 1.7B – ein ternäres Modell von PrismML – wurde für Apple Silicon mit autonom optimierten Metal-Kerneln optimiert. Die Arbeit wurde von ata durchgeführt, einem autonomen Engineering-Agenten von Agents2Agents, der sechs Stunden lang eine agentische Evolutionssuche durchführte, um maßgeschneiderte GPU-Kernel zu erzeugen.
Benchmark-Ergebnisse
Gemessen am unveränderten llama.cpp auf demselben Bonsai/Q2_0-Commit auf einem M4 Max (gleiche Modelldatei, gleiche llama-bench -p 512 -n 128 -r 10 -fa 1 -ngl 99-Konfiguration):
- Decode (tg128): 311,66 → 442,42 t/s (+42,0%)
- Prefill (pp512): 4250,32 → 4622,63 t/s (+8,8%)
Zum Vergleich: Das Bonsai 8B-Whitepaper gibt für MLX-Upstream Q2_0 Decode 235 t/s auf Apple Silicon an. Dieser Build erreicht 442 t/s auf der 1,7B-Variante mittels benutzerdefinierter Metal-Kernel (anderes Framework, kleineres Modell – richtungsweisend für das Potenzial im Stack).
Enthaltene Komponenten
Der Build ist ein einsatzbereites optimiertes Inferenzpaket für M-Serie-Macs (nur arm64). In der 358 MB großen tar.xz-Datei:
chat.sh– interaktive REPLcomplete.sh– nicht-interaktive Textvervollständigungbench.sh– reproduziert die Benchmarksserver.sh– OpenAI-kompatible HTTP-API auf :8080Bonsai-1.7B-Q2_0.gguf– die Modelldatei (442 MB)
Schnellstart
tar -xJf bonsai-1.7b-ternary-M4Max.tar.xz
cd bonsai-1.7b-ternary-M4Max
./chat.shTechnische Details
Jeder Metal-Kernel wurde von ata ohne menschliches Eingreifen erstellt und optimiert. Die Arbeit konzentrierte sich auf benutzerdefinierte GPU-Kernel auf der Matvec/FFN/KV-Cache-Ebene, formspezialisiert für den Bonsai 1.7B Q2_0-Decode-Pfad. Die numerischen Ergebnisse stimmen mit dem Referenzbuild überein (Übereinstimmung des Top-1-Tokens verifiziert). Getestet auf M4 Max; proportionale Verbesserungen werden auf M1+ erwartet.
Einschränkungen
- Nur Apple Silicon (arm64) – keine Intel-Macs oder reine CPU-Builds.
- Zahlen vom M4 Max; M1/M2/M3 werden aufgrund geringerer Speicherbandbreite niedriger ausfallen.
- Modell ist mit Q2_0 quantisiert – kleiner Genauigkeitsunterschied zu F16.
📖 Vollständige Quelle lesen: HN AI Agents
👀 Siehe auch

Unterschiede zwischen der Verwendung von Claude über GitHub Copilot und als VS Code-Erweiterung
Erforschen Sie die Unterschiede zwischen der Nutzung von Claude AI über die Zielsessions von GitHub Copilot und als VS Code-Erweiterung, basierend auf deren Integration und Funktionalität.

OpenClaw-Agenten treten in einer KI-exklusiven Pokémon-Rot-Liga an
Eine neue Plattform namens AgentMonLeague ermöglicht es autonomen OpenClaw-Agenten, sich mit einem Pokémon-Rot-Emulator zu verbinden, eigene Entscheidungen während eines kompletten Durchspielens zu treffen und darum zu konkurrieren, das Spiel als Erster zu beenden. Die Läufe sind live verfolgbar, während die Agenten voranschreiten.

Berkeley-Studie: Alle KI-Überarbeitungseingaben treiben Prosa in Richtung Formalität, selbst bei "Stimme bewahren"
Neue Studie von Berkeley misst 300 persönliche Erzählungen mit Claude, ChatGPT und Gemini unter drei Prompt-Bedingungen. Jedes Modell und jede Bedingung reduziert Kontraktionen, Ich-Pronomen und narrative Nähe – der Prompt „Stimme bewahren“ verringert nur die Stärke der Abweichung, nicht deren Richtung.

Uber verbrennt KI-Budget für 2026 in 4 Monaten mit Claude Code — 500–2.000 Dollar pro Ingenieur monatlich
Uber hat sein gesamtes KI-Budget für 2026 bis April für Claude Code und Cursor ausgegeben. Die monatlichen API-Kosten betragen 500 bis 2.000 US-Dollar pro Ingenieur. 95 % der Ingenieure nutzen monatlich KI-Tools; 70 % des Committed Codes sind KI-generiert.