Bonsai 1.7B Ternäres Modell erreicht 442 T/s auf M4 Max mit autonom abgestimmten Metal-Kernels

✍️ OpenClawRadar📅 Veröffentlicht: 4. Mai 2026🔗 Source
Bonsai 1.7B Ternäres Modell erreicht 442 T/s auf M4 Max mit autonom abgestimmten Metal-Kernels
Ad

Bonsai 1.7B – ein ternäres Modell von PrismML – wurde für Apple Silicon mit autonom optimierten Metal-Kerneln optimiert. Die Arbeit wurde von ata durchgeführt, einem autonomen Engineering-Agenten von Agents2Agents, der sechs Stunden lang eine agentische Evolutionssuche durchführte, um maßgeschneiderte GPU-Kernel zu erzeugen.

Benchmark-Ergebnisse

Gemessen am unveränderten llama.cpp auf demselben Bonsai/Q2_0-Commit auf einem M4 Max (gleiche Modelldatei, gleiche llama-bench -p 512 -n 128 -r 10 -fa 1 -ngl 99-Konfiguration):

  • Decode (tg128): 311,66 → 442,42 t/s (+42,0%)
  • Prefill (pp512): 4250,32 → 4622,63 t/s (+8,8%)

Zum Vergleich: Das Bonsai 8B-Whitepaper gibt für MLX-Upstream Q2_0 Decode 235 t/s auf Apple Silicon an. Dieser Build erreicht 442 t/s auf der 1,7B-Variante mittels benutzerdefinierter Metal-Kernel (anderes Framework, kleineres Modell – richtungsweisend für das Potenzial im Stack).

Enthaltene Komponenten

Der Build ist ein einsatzbereites optimiertes Inferenzpaket für M-Serie-Macs (nur arm64). In der 358 MB großen tar.xz-Datei:

  • chat.sh – interaktive REPL
  • complete.sh – nicht-interaktive Textvervollständigung
  • bench.sh – reproduziert die Benchmarks
  • server.sh – OpenAI-kompatible HTTP-API auf :8080
  • Bonsai-1.7B-Q2_0.gguf – die Modelldatei (442 MB)
Ad

Schnellstart

tar -xJf bonsai-1.7b-ternary-M4Max.tar.xz
cd bonsai-1.7b-ternary-M4Max
./chat.sh

Technische Details

Jeder Metal-Kernel wurde von ata ohne menschliches Eingreifen erstellt und optimiert. Die Arbeit konzentrierte sich auf benutzerdefinierte GPU-Kernel auf der Matvec/FFN/KV-Cache-Ebene, formspezialisiert für den Bonsai 1.7B Q2_0-Decode-Pfad. Die numerischen Ergebnisse stimmen mit dem Referenzbuild überein (Übereinstimmung des Top-1-Tokens verifiziert). Getestet auf M4 Max; proportionale Verbesserungen werden auf M1+ erwartet.

Einschränkungen

  • Nur Apple Silicon (arm64) – keine Intel-Macs oder reine CPU-Builds.
  • Zahlen vom M4 Max; M1/M2/M3 werden aufgrund geringerer Speicherbandbreite niedriger ausfallen.
  • Modell ist mit Q2_0 quantisiert – kleiner Genauigkeitsunterschied zu F16.

📖 Vollständige Quelle lesen: HN AI Agents

Ad

👀 Siehe auch

Unterschiede zwischen der Verwendung von Claude über GitHub Copilot und als VS Code-Erweiterung
Nachrichten

Unterschiede zwischen der Verwendung von Claude über GitHub Copilot und als VS Code-Erweiterung

Erforschen Sie die Unterschiede zwischen der Nutzung von Claude AI über die Zielsessions von GitHub Copilot und als VS Code-Erweiterung, basierend auf deren Integration und Funktionalität.

OpenClawRadar
OpenClaw-Agenten treten in einer KI-exklusiven Pokémon-Rot-Liga an
Nachrichten

OpenClaw-Agenten treten in einer KI-exklusiven Pokémon-Rot-Liga an

Eine neue Plattform namens AgentMonLeague ermöglicht es autonomen OpenClaw-Agenten, sich mit einem Pokémon-Rot-Emulator zu verbinden, eigene Entscheidungen während eines kompletten Durchspielens zu treffen und darum zu konkurrieren, das Spiel als Erster zu beenden. Die Läufe sind live verfolgbar, während die Agenten voranschreiten.

OpenClawRadar
Berkeley-Studie: Alle KI-Überarbeitungseingaben treiben Prosa in Richtung Formalität, selbst bei "Stimme bewahren"
Nachrichten

Berkeley-Studie: Alle KI-Überarbeitungseingaben treiben Prosa in Richtung Formalität, selbst bei "Stimme bewahren"

Neue Studie von Berkeley misst 300 persönliche Erzählungen mit Claude, ChatGPT und Gemini unter drei Prompt-Bedingungen. Jedes Modell und jede Bedingung reduziert Kontraktionen, Ich-Pronomen und narrative Nähe – der Prompt „Stimme bewahren“ verringert nur die Stärke der Abweichung, nicht deren Richtung.

OpenClawRadar
Uber verbrennt KI-Budget für 2026 in 4 Monaten mit Claude Code — 500–2.000 Dollar pro Ingenieur monatlich
Nachrichten

Uber verbrennt KI-Budget für 2026 in 4 Monaten mit Claude Code — 500–2.000 Dollar pro Ingenieur monatlich

Uber hat sein gesamtes KI-Budget für 2026 bis April für Claude Code und Cursor ausgegeben. Die monatlichen API-Kosten betragen 500 bis 2.000 US-Dollar pro Ingenieur. 95 % der Ingenieure nutzen monatlich KI-Tools; 70 % des Committed Codes sind KI-generiert.

OpenClawRadar