Bonsai 1.7B Ternäres Modell erreicht 442 T/s auf M4 Max mit autonom abgestimmten Metal-Kernels

✍️ OpenClawRadar📅 Veröffentlicht: 4. Mai 2026🔗 Source
Bonsai 1.7B Ternäres Modell erreicht 442 T/s auf M4 Max mit autonom abgestimmten Metal-Kernels
Ad

Bonsai 1.7B – ein ternäres Modell von PrismML – wurde für Apple Silicon mit autonom optimierten Metal-Kerneln optimiert. Die Arbeit wurde von ata durchgeführt, einem autonomen Engineering-Agenten von Agents2Agents, der sechs Stunden lang eine agentische Evolutionssuche durchführte, um maßgeschneiderte GPU-Kernel zu erzeugen.

Benchmark-Ergebnisse

Gemessen am unveränderten llama.cpp auf demselben Bonsai/Q2_0-Commit auf einem M4 Max (gleiche Modelldatei, gleiche llama-bench -p 512 -n 128 -r 10 -fa 1 -ngl 99-Konfiguration):

  • Decode (tg128): 311,66 → 442,42 t/s (+42,0%)
  • Prefill (pp512): 4250,32 → 4622,63 t/s (+8,8%)

Zum Vergleich: Das Bonsai 8B-Whitepaper gibt für MLX-Upstream Q2_0 Decode 235 t/s auf Apple Silicon an. Dieser Build erreicht 442 t/s auf der 1,7B-Variante mittels benutzerdefinierter Metal-Kernel (anderes Framework, kleineres Modell – richtungsweisend für das Potenzial im Stack).

Enthaltene Komponenten

Der Build ist ein einsatzbereites optimiertes Inferenzpaket für M-Serie-Macs (nur arm64). In der 358 MB großen tar.xz-Datei:

  • chat.sh – interaktive REPL
  • complete.sh – nicht-interaktive Textvervollständigung
  • bench.sh – reproduziert die Benchmarks
  • server.sh – OpenAI-kompatible HTTP-API auf :8080
  • Bonsai-1.7B-Q2_0.gguf – die Modelldatei (442 MB)
Ad

Schnellstart

tar -xJf bonsai-1.7b-ternary-M4Max.tar.xz
cd bonsai-1.7b-ternary-M4Max
./chat.sh

Technische Details

Jeder Metal-Kernel wurde von ata ohne menschliches Eingreifen erstellt und optimiert. Die Arbeit konzentrierte sich auf benutzerdefinierte GPU-Kernel auf der Matvec/FFN/KV-Cache-Ebene, formspezialisiert für den Bonsai 1.7B Q2_0-Decode-Pfad. Die numerischen Ergebnisse stimmen mit dem Referenzbuild überein (Übereinstimmung des Top-1-Tokens verifiziert). Getestet auf M4 Max; proportionale Verbesserungen werden auf M1+ erwartet.

Einschränkungen

  • Nur Apple Silicon (arm64) – keine Intel-Macs oder reine CPU-Builds.
  • Zahlen vom M4 Max; M1/M2/M3 werden aufgrund geringerer Speicherbandbreite niedriger ausfallen.
  • Modell ist mit Q2_0 quantisiert – kleiner Genauigkeitsunterschied zu F16.

📖 Vollständige Quelle lesen: HN AI Agents

Ad

👀 Siehe auch

Gemini Embedding 2: Googles erstes nativ multimodales Embedding-Modell veröffentlicht
Nachrichten

Gemini Embedding 2: Googles erstes nativ multimodales Embedding-Modell veröffentlicht

Google hat Gemini Embedding 2 veröffentlicht, sein erstes nativ multimodales Embedding-Modell, das Text, Bilder, Videos, Audio und Dokumente in einen einzigen Embedding-Raum abbildet. Das Modell unterstützt bis zu 8192 Text-Tokens, 6 Bilder pro Anfrage, 120 Sekunden Video und PDFs mit bis zu 6 Seiten Länge, mit flexiblen Ausgabedimensionen von 3072 bis hinunter zu 768.

OpenClawRadar
Krankenhaus-CEO behauptet, KI sei bereit, Radiologen zu ersetzen
Nachrichten

Krankenhaus-CEO behauptet, KI sei bereit, Radiologen zu ersetzen

Der CEO des größten öffentlichen Krankenhaussystems in Amerika sagt, er sei bereit, Radiologen durch KI zu ersetzen, laut einem Radiology Business-Artikel, der auf Hacker News mit 83 Kommentaren eine bedeutende Diskussion auslöste.

OpenClawRadar
Projekt-Gesundheitscheck: Bus-Faktor und Commit-Aktivität in den Claw/Assistant-Repos
Nachrichten

Projekt-Gesundheitscheck: Bus-Faktor und Commit-Aktivität in den Claw/Assistant-Repos

Ein Reddit-Nutzer hat Commit-Daten von großen Claw/Assistant-Projekten gescrapt und festgestellt, dass viele einen Busfaktor von 1 haben – das bedeutet, dass ein einzelner Autor für über 50 % der Commits verantwortlich ist. Einige Projekte zeigen drastische Rückgänge der Aktivität im April.

OpenClawRadar
OpenClaw-Entwickler meldet Kontextkompaktierungsprobleme während des Driftwatch V3-Builds
Nachrichten

OpenClaw-Entwickler meldet Kontextkompaktierungsprobleme während des Driftwatch V3-Builds

Ein OpenClaw-Entwickler schloss die Sprints 2–4 des Driftwatch-V3-Builds ab, stieß jedoch auf Kontextkomprimierungsprobleme, die den Speicher des KI-Agenten mitten in der Sitzung löschten, was manuelle Eingriffe zur Wiederherstellung des Fortschritts mithilfe von Sprint-Zusammenfassungen erforderte.

OpenClawRadar