Bonsai 1.7B 三元モデル、M4 Maxで442 T/s達成

Bonsai 1.7B — PrismMLによる三項モデル — が、Apple Silicon向けに自律的にチューニングされたMetalカーネルを用いて最適化されました。この作業は、エージェンティック進化探索を6時間実行してカスタムGPUカーネルを生成した、Agents2Agentsの自律エンジニアリングエージェントataによって行われました。

ベンチマーク結果

同じBonsai/Q2_0コミットのアップストリームのllama.cppと、M4 Max上で（同一モデルファイル、同一のllama-bench -p 512 -n 128 -r 10 -fa 1 -ngl 99設定）比較した測定結果：

デコード (tg128): 311.66 → 442.42 t/s (+42.0%)
プリフィル (pp512): 4250.32 → 4622.63 t/s (+8.8%)

参考までに、Bonsai 8Bのホワイトペーパーでは、Apple Silicon上のMLXアップストリームQ2_0デコードは235 t/sと報告されています。このビルドでは、カスタムMetalカーネルにより1.7Bバリアントで442 t/sを達成しています（異なるフレームワーク、より小さいモデル — スタック内の余力を示す方向性のある指標）。

含まれるもの

このビルドは、MシリーズMac向けのドロップイン最適化推論パッケージです（arm64のみ）。358 MBのtar.xz内：

chat.sh — インタラクティブREPL
complete.sh — 非インタラクティブ補完
bench.sh — ベンチマークの再現
server.sh — :8080でOpenAI互換HTTP API
Bonsai-1.7B-Q2_0.gguf — モデルファイル（442 MB）

クイックスタート

tar -xJf bonsai-1.7b-ternary-M4Max.tar.xz
cd bonsai-1.7b-ternary-M4Max
./chat.sh

技術的詳細

すべてのMetalカーネルは、人間の介入なしにataによって作成および調整されました。作業は、Bonsai 1.7B Q2_0のデコードパスに形状特化した、matvec / FFN / KVキャッシュ層でのカスタムGPUカーネルに焦点を当てました。数値出力はリファレンスビルドと一致します（top-1トークンの一致を確認済み）。M4 Maxでテスト済み。M1+でも比例した改善が期待されます。