Bonsai 1.7B 三元モデル、M4 Max上で自律調整されたMetalカーネルにより442 T/sを達成

✍️ OpenClawRadar📅 公開日: May 4, 2026🔗 Source
Bonsai 1.7B 三元モデル、M4 Max上で自律調整されたMetalカーネルにより442 T/sを達成
Ad

Bonsai 1.7B — PrismMLによる三項モデル — が、Apple Silicon向けに自律的にチューニングされたMetalカーネルを用いて最適化されました。この作業は、エージェンティック進化探索を6時間実行してカスタムGPUカーネルを生成した、Agents2Agentsの自律エンジニアリングエージェントataによって行われました。

ベンチマーク結果

同じBonsai/Q2_0コミットのアップストリームのllama.cppと、M4 Max上で(同一モデルファイル、同一のllama-bench -p 512 -n 128 -r 10 -fa 1 -ngl 99設定)比較した測定結果:

  • デコード (tg128): 311.66 → 442.42 t/s (+42.0%)
  • プリフィル (pp512): 4250.32 → 4622.63 t/s (+8.8%)

参考までに、Bonsai 8Bのホワイトペーパーでは、Apple Silicon上のMLXアップストリームQ2_0デコードは235 t/sと報告されています。このビルドでは、カスタムMetalカーネルにより1.7Bバリアントで442 t/sを達成しています(異なるフレームワーク、より小さいモデル — スタック内の余力を示す方向性のある指標)。

含まれるもの

このビルドは、MシリーズMac向けのドロップイン最適化推論パッケージです(arm64のみ)。358 MBのtar.xz内:

  • chat.sh — インタラクティブREPL
  • complete.sh — 非インタラクティブ補完
  • bench.sh — ベンチマークの再現
  • server.sh — :8080でOpenAI互換HTTP API
  • Bonsai-1.7B-Q2_0.gguf — モデルファイル(442 MB)
Ad

クイックスタート

tar -xJf bonsai-1.7b-ternary-M4Max.tar.xz
cd bonsai-1.7b-ternary-M4Max
./chat.sh

技術的詳細

すべてのMetalカーネルは、人間の介入なしにataによって作成および調整されました。作業は、Bonsai 1.7B Q2_0のデコードパスに形状特化した、matvec / FFN / KVキャッシュ層でのカスタムGPUカーネルに焦点を当てました。数値出力はリファレンスビルドと一致します(top-1トークンの一致を確認済み)。M4 Maxでテスト済み。M1+でも比例した改善が期待されます。

注意事項

  • Apple Siliconのみ(arm64) — Intel MacやCPUのみのビルドはありません。
  • 数値はM4 Maxのもの。M1/M2/M3はメモリ帯域幅が少ないため、より低くなります。
  • モデルはQ2_0量子化 — F16と比較してわずかな精度差があります。

📖 全文はこちら: HN AI Agents

Ad

👀 See Also

Claude-Code v2.1.97 リリース:NO_FLICKERの改善、パーミッション修正、およびMCP更新
News

Claude-Code v2.1.97 リリース:NO_FLICKERの改善、パーミッション修正、およびMCP更新

Claude-Code v2.1.97では、NO_FLICKERモードにフォーカスビューの切り替え(Ctrl+O)を追加し、複数の権限およびMCP接続の問題を修正し、サンドボックスのネットワークアクセスを改善しました。このリリースでは、429リトライ動作、トランスクリプトの永続化の問題、および様々なUIバグに対処しています。

OpenClawRadar
Anthropicの研究により、AI支援ワークフローにおける認知能力の低下が明らかになった
News

Anthropicの研究により、AI支援ワークフローにおける認知能力の低下が明らかになった

Anthropicが8万人のユーザーを対象に行ったグローバル調査によると、ClaudeやCursorなどのAIツールを使用する際、学術ユーザーは平均の2.5倍高い認知能力の低下率を報告しています。情報源は、問題の原因をユーザーが作業の「消化段階」を排除していることと特定しています。

OpenClawRadar
Xiaomi MiMo-V2-Pro AIモデル、OpenRouterで7日間無料提供中
News

Xiaomi MiMo-V2-Pro AIモデル、OpenRouterで7日間無料提供中

XiaomiのMiMo-V2-Pro AIモデルが、OpenRouterで7日間無料APIアクセスを提供しています。このモデルは100万トークンのコンテキストウィンドウを特徴とし、ベンチマークではClaude Opus 4.6と競合し、GPT-5.2に近い性能を示しています。

OpenClawRadar
RTX 5000 PRO 48GB、Qwen3.6-27Bに対し4400トークン/秒の高精度キャッシングを実現
News

RTX 5000 PRO 48GB、Qwen3.6-27Bに対し4400トークン/秒の高精度キャッシングを実現

初めてPCを自作したユーザーが、Qwen3.6-27B-FP8フルプレシジョンKVキャッシュを搭載した単一のRTX 5000 Pro 48GBで、4400 tok/sのプロンプト処理と80 tok/sの生成を達成したと報告。vLLMとClaude Codeを使用。

OpenClawRadar