Bonsai 1.7B Ternäres Modell erreicht 442 T/s auf M4 Max mit autonom abgestimmten Metal-Kernels

Bonsai 1.7B – ein ternäres Modell von PrismML – wurde für Apple Silicon mit autonom optimierten Metal-Kerneln optimiert. Die Arbeit wurde von ata durchgeführt, einem autonomen Engineering-Agenten von Agents2Agents, der sechs Stunden lang eine agentische Evolutionssuche durchführte, um maßgeschneiderte GPU-Kernel zu erzeugen.
Benchmark-Ergebnisse
Gemessen am unveränderten llama.cpp auf demselben Bonsai/Q2_0-Commit auf einem M4 Max (gleiche Modelldatei, gleiche llama-bench -p 512 -n 128 -r 10 -fa 1 -ngl 99-Konfiguration):
- Decode (tg128): 311,66 → 442,42 t/s (+42,0%)
- Prefill (pp512): 4250,32 → 4622,63 t/s (+8,8%)
Zum Vergleich: Das Bonsai 8B-Whitepaper gibt für MLX-Upstream Q2_0 Decode 235 t/s auf Apple Silicon an. Dieser Build erreicht 442 t/s auf der 1,7B-Variante mittels benutzerdefinierter Metal-Kernel (anderes Framework, kleineres Modell – richtungsweisend für das Potenzial im Stack).
Enthaltene Komponenten
Der Build ist ein einsatzbereites optimiertes Inferenzpaket für M-Serie-Macs (nur arm64). In der 358 MB großen tar.xz-Datei:
chat.sh– interaktive REPLcomplete.sh– nicht-interaktive Textvervollständigungbench.sh– reproduziert die Benchmarksserver.sh– OpenAI-kompatible HTTP-API auf :8080Bonsai-1.7B-Q2_0.gguf– die Modelldatei (442 MB)
Schnellstart
tar -xJf bonsai-1.7b-ternary-M4Max.tar.xz
cd bonsai-1.7b-ternary-M4Max
./chat.shTechnische Details
Jeder Metal-Kernel wurde von ata ohne menschliches Eingreifen erstellt und optimiert. Die Arbeit konzentrierte sich auf benutzerdefinierte GPU-Kernel auf der Matvec/FFN/KV-Cache-Ebene, formspezialisiert für den Bonsai 1.7B Q2_0-Decode-Pfad. Die numerischen Ergebnisse stimmen mit dem Referenzbuild überein (Übereinstimmung des Top-1-Tokens verifiziert). Getestet auf M4 Max; proportionale Verbesserungen werden auf M1+ erwartet.
Einschränkungen
- Nur Apple Silicon (arm64) – keine Intel-Macs oder reine CPU-Builds.
- Zahlen vom M4 Max; M1/M2/M3 werden aufgrund geringerer Speicherbandbreite niedriger ausfallen.
- Modell ist mit Q2_0 quantisiert – kleiner Genauigkeitsunterschied zu F16.
📖 Vollständige Quelle lesen: HN AI Agents
👀 Siehe auch

Gemini Embedding 2: Googles erstes nativ multimodales Embedding-Modell veröffentlicht
Google hat Gemini Embedding 2 veröffentlicht, sein erstes nativ multimodales Embedding-Modell, das Text, Bilder, Videos, Audio und Dokumente in einen einzigen Embedding-Raum abbildet. Das Modell unterstützt bis zu 8192 Text-Tokens, 6 Bilder pro Anfrage, 120 Sekunden Video und PDFs mit bis zu 6 Seiten Länge, mit flexiblen Ausgabedimensionen von 3072 bis hinunter zu 768.

Krankenhaus-CEO behauptet, KI sei bereit, Radiologen zu ersetzen
Der CEO des größten öffentlichen Krankenhaussystems in Amerika sagt, er sei bereit, Radiologen durch KI zu ersetzen, laut einem Radiology Business-Artikel, der auf Hacker News mit 83 Kommentaren eine bedeutende Diskussion auslöste.

Projekt-Gesundheitscheck: Bus-Faktor und Commit-Aktivität in den Claw/Assistant-Repos
Ein Reddit-Nutzer hat Commit-Daten von großen Claw/Assistant-Projekten gescrapt und festgestellt, dass viele einen Busfaktor von 1 haben – das bedeutet, dass ein einzelner Autor für über 50 % der Commits verantwortlich ist. Einige Projekte zeigen drastische Rückgänge der Aktivität im April.

OpenClaw-Entwickler meldet Kontextkompaktierungsprobleme während des Driftwatch V3-Builds
Ein OpenClaw-Entwickler schloss die Sprints 2–4 des Driftwatch-V3-Builds ab, stieß jedoch auf Kontextkomprimierungsprobleme, die den Speicher des KI-Agenten mitten in der Sitzung löschten, was manuelle Eingriffe zur Wiederherstellung des Fortschritts mithilfe von Sprint-Zusammenfassungen erforderte.