Bonsai 1.7B Atteint 442 T/s sur M4 Max

Bonsai 1.7B — un modèle ternaire de PrismML — a été optimisé pour Apple Silicon en utilisant des kernels Metal ajustés de manière autonome. Le travail a été réalisé par ata, un agent d'ingénierie autonome d'Agents2Agents, qui a effectué une recherche évolutive agentique pendant 6 heures pour produire des kernels GPU personnalisés.

Résultats des benchmarks

Mesurés par rapport à la version amont de llama.cpp au même commit Bonsai/Q2_0 sur un M4 Max (même fichier modèle, même configuration llama-bench -p 512 -n 128 -r 10 -fa 1 -ngl 99) :

Décodage (tg128) : 311,66 → 442,42 t/s (+42,0 %)
Préremplissage (pp512) : 4250,32 → 4622,63 t/s (+8,8 %)

Pour contexte, le livre blanc de Bonsai 8B rapporte un décodage MLX-amont Q2_0 à 235 t/s sur Apple Silicon. Cette version atteint 442 t/s sur la variante 1.7B via des kernels Metal personnalisés (framework différent, modèle plus petit — indication directionnelle de la marge dans la pile).

Ce qui est inclus

La version est un package d'inférence optimisé prêt à l'emploi pour les Mac de la série M (arm64 uniquement). Dans le tar.xz de 358 Mo :

chat.sh — REPL interactif
complete.sh — complétion non interactive
bench.sh — reproduire les benchmarks
server.sh — API HTTP compatible OpenAI sur :8080
Bonsai-1.7B-Q2_0.gguf — le fichier modèle (442 Mo)

Démarrage rapide

tar -xJf bonsai-1.7b-ternary-M4Max.tar.xz
cd bonsai-1.7b-ternary-M4Max
./chat.sh

Détails techniques

Chaque kernel Metal a été créé et ajusté par ata sans intervention humaine. Le travail s'est concentré sur les kernels GPU personnalisés au niveau de la couche matvec / FFN / cache KV, spécialisés par forme pour le chemin de décodage Bonsai 1.7B Q2_0. La sortie numérique correspond à la version de référence (vérification de la correspondance du premier token). Testé sur M4 Max ; des gains proportionnels attendus sur M1+.

Mises en garde

Apple Silicon uniquement (arm64) — pas de version pour Intel Mac ou CPU uniquement.
Chiffres provenant du M4 Max ; M1/M2/M3 seront inférieurs en raison d'une bande passante mémoire moindre.
Le modèle est quantifié en Q2_0 — faible différence de précision par rapport au F16.

📖 Lire la source complète : HN AI Agents

Bonsai 1.7B : modèle ternaire atteint 442 T/s sur M4 Max avec des noyaux Metal réglés de manière autonome

Résultats des benchmarks

Ce qui est inclus

Démarrage rapide

Détails techniques

Mises en garde

👀 See Also

Meta OpenEnv AI Hackathon en Inde offre des entretiens directs et un prix de 30 000 $

Conception d'une équipe d'agents : Comment Google Antigravity structure les sous-agents pour la génération autonome de code

Claude Fable 5 benchmarks : 59,8 % fonctionnel, 19 % sécurité, triche et délais record

Le coût caché du code généré par l'IA : déboguer des spaghettis