Bonsai 1.7B 三元モデル、M4 Max上で自律調整されたMetalカーネルにより442 T/sを達成

Bonsai 1.7B — PrismMLによる三項モデル — が、Apple Silicon向けに自律的にチューニングされたMetalカーネルを用いて最適化されました。この作業は、エージェンティック進化探索を6時間実行してカスタムGPUカーネルを生成した、Agents2Agentsの自律エンジニアリングエージェントataによって行われました。
ベンチマーク結果
同じBonsai/Q2_0コミットのアップストリームのllama.cppと、M4 Max上で(同一モデルファイル、同一のllama-bench -p 512 -n 128 -r 10 -fa 1 -ngl 99設定)比較した測定結果:
- デコード (tg128): 311.66 → 442.42 t/s (+42.0%)
- プリフィル (pp512): 4250.32 → 4622.63 t/s (+8.8%)
参考までに、Bonsai 8Bのホワイトペーパーでは、Apple Silicon上のMLXアップストリームQ2_0デコードは235 t/sと報告されています。このビルドでは、カスタムMetalカーネルにより1.7Bバリアントで442 t/sを達成しています(異なるフレームワーク、より小さいモデル — スタック内の余力を示す方向性のある指標)。
含まれるもの
このビルドは、MシリーズMac向けのドロップイン最適化推論パッケージです(arm64のみ)。358 MBのtar.xz内:
chat.sh— インタラクティブREPLcomplete.sh— 非インタラクティブ補完bench.sh— ベンチマークの再現server.sh— :8080でOpenAI互換HTTP APIBonsai-1.7B-Q2_0.gguf— モデルファイル(442 MB)
クイックスタート
tar -xJf bonsai-1.7b-ternary-M4Max.tar.xz
cd bonsai-1.7b-ternary-M4Max
./chat.sh技術的詳細
すべてのMetalカーネルは、人間の介入なしにataによって作成および調整されました。作業は、Bonsai 1.7B Q2_0のデコードパスに形状特化した、matvec / FFN / KVキャッシュ層でのカスタムGPUカーネルに焦点を当てました。数値出力はリファレンスビルドと一致します(top-1トークンの一致を確認済み)。M4 Maxでテスト済み。M1+でも比例した改善が期待されます。
注意事項
- Apple Siliconのみ(arm64) — Intel MacやCPUのみのビルドはありません。
- 数値はM4 Maxのもの。M1/M2/M3はメモリ帯域幅が少ないため、より低くなります。
- モデルはQ2_0量子化 — F16と比較してわずかな精度差があります。
📖 全文はこちら: HN AI Agents
👀 See Also

Claude-Code v2.1.97 リリース:NO_FLICKERの改善、パーミッション修正、およびMCP更新
Claude-Code v2.1.97では、NO_FLICKERモードにフォーカスビューの切り替え(Ctrl+O)を追加し、複数の権限およびMCP接続の問題を修正し、サンドボックスのネットワークアクセスを改善しました。このリリースでは、429リトライ動作、トランスクリプトの永続化の問題、および様々なUIバグに対処しています。

Anthropicの研究により、AI支援ワークフローにおける認知能力の低下が明らかになった
Anthropicが8万人のユーザーを対象に行ったグローバル調査によると、ClaudeやCursorなどのAIツールを使用する際、学術ユーザーは平均の2.5倍高い認知能力の低下率を報告しています。情報源は、問題の原因をユーザーが作業の「消化段階」を排除していることと特定しています。

Xiaomi MiMo-V2-Pro AIモデル、OpenRouterで7日間無料提供中
XiaomiのMiMo-V2-Pro AIモデルが、OpenRouterで7日間無料APIアクセスを提供しています。このモデルは100万トークンのコンテキストウィンドウを特徴とし、ベンチマークではClaude Opus 4.6と競合し、GPT-5.2に近い性能を示しています。

RTX 5000 PRO 48GB、Qwen3.6-27Bに対し4400トークン/秒の高精度キャッシングを実現
初めてPCを自作したユーザーが、Qwen3.6-27B-FP8フルプレシジョンKVキャッシュを搭載した単一のRTX 5000 Pro 48GBで、4400 tok/sのプロンプト処理と80 tok/sの生成を達成したと報告。vLLMとClaude Codeを使用。