Bonsai 1.7B : modèle ternaire atteint 442 T/s sur M4 Max avec des noyaux Metal réglés de manière autonome

Bonsai 1.7B — un modèle ternaire de PrismML — a été optimisé pour Apple Silicon en utilisant des kernels Metal ajustés de manière autonome. Le travail a été réalisé par ata, un agent d'ingénierie autonome d'Agents2Agents, qui a effectué une recherche évolutive agentique pendant 6 heures pour produire des kernels GPU personnalisés.
Résultats des benchmarks
Mesurés par rapport à la version amont de llama.cpp au même commit Bonsai/Q2_0 sur un M4 Max (même fichier modèle, même configuration llama-bench -p 512 -n 128 -r 10 -fa 1 -ngl 99) :
- Décodage (tg128) : 311,66 → 442,42 t/s (+42,0 %)
- Préremplissage (pp512) : 4250,32 → 4622,63 t/s (+8,8 %)
Pour contexte, le livre blanc de Bonsai 8B rapporte un décodage MLX-amont Q2_0 à 235 t/s sur Apple Silicon. Cette version atteint 442 t/s sur la variante 1.7B via des kernels Metal personnalisés (framework différent, modèle plus petit — indication directionnelle de la marge dans la pile).
Ce qui est inclus
La version est un package d'inférence optimisé prêt à l'emploi pour les Mac de la série M (arm64 uniquement). Dans le tar.xz de 358 Mo :
chat.sh— REPL interactifcomplete.sh— complétion non interactivebench.sh— reproduire les benchmarksserver.sh— API HTTP compatible OpenAI sur :8080Bonsai-1.7B-Q2_0.gguf— le fichier modèle (442 Mo)
Démarrage rapide
tar -xJf bonsai-1.7b-ternary-M4Max.tar.xz
cd bonsai-1.7b-ternary-M4Max
./chat.shDétails techniques
Chaque kernel Metal a été créé et ajusté par ata sans intervention humaine. Le travail s'est concentré sur les kernels GPU personnalisés au niveau de la couche matvec / FFN / cache KV, spécialisés par forme pour le chemin de décodage Bonsai 1.7B Q2_0. La sortie numérique correspond à la version de référence (vérification de la correspondance du premier token). Testé sur M4 Max ; des gains proportionnels attendus sur M1+.
Mises en garde
- Apple Silicon uniquement (arm64) — pas de version pour Intel Mac ou CPU uniquement.
- Chiffres provenant du M4 Max ; M1/M2/M3 seront inférieurs en raison d'une bande passante mémoire moindre.
- Le modèle est quantifié en Q2_0 — faible différence de précision par rapport au F16.
📖 Lire la source complète : HN AI Agents
👀 See Also

La Gestion du Contexte d'OpenClaw Critiquée pour sa Consommation de Tokens et ses Défauts Architecturaux
Un post sur Reddit critique OpenClaw pour sa gestion inefficace du contexte qui entraîne une utilisation excessive de tokens. Le framework ajoute toutes les actions à l'historique global, créant des prompts gonflés qui submergent les modèles plus petits et forcent à dépendre de modèles frontaliers coûteux comme Claude Opus.

Compte Google suspendu après une tentative d'intégration d'OpenClaw
Le compte Google tout neuf d'un développeur a été suspendu dans les 48 heures suivant la configuration de l'accès API pour l'intégration d'OpenClaw, signalé comme activité de bot malgré une création manuelle.

Les développeurs de Spotify utilisent l'IA pour des contributions sans code.
Les principaux développeurs de Spotify n'ont pas écrit de code depuis décembre grâce à l'IA, notamment via leur système interne 'Honk' qui facilite les déploiements de code à distance et en temps réel en utilisant Claude Code.
Les utilisateurs de Claude Plan obtiennent des crédits mensuels SDK Agent à partir du 15 juin 2026
Les abonnés aux formules Claude Pro, Max, Team et Enterprise peuvent bénéficier d'un crédit mensuel pour l'utilisation du SDK Agent, couvrant claude -p, l'intégration GitHub Actions et les applications tierces. Les crédits sont renouvelés chaque mois, attribués par utilisateur et ne peuvent pas être mutualisés.