1-Bit Bonsai Image 4B: バイナリ/ターナリFLUX.2によるデバイス上画像生成

PrismMLはBonsai Image 4Bをリリースしました。これはFLUX.2 Klein 4Bをバイナリおよびタータリー量子化したコンパクトな画像生成モデルファミリーです。拡散トランスフォーマーの重みは{−1, +1}(1ビット)または{−1, 0, +1}(タータリー)で表現され、FP16のグループワイズスケーリング係数を持つため、実効ビット数はそれぞれ1.125および1.71ビットとなります。
主な仕様
- 1ビットBonsai Image 4B:トランスフォーマーのフットプリントは0.93 GB(FLUX.2 Klein 4BのFP16版7.75 GBから8.3倍削減)。Apple Siliconペイロード(圧縮テキストエンコーダ+FP16 VAE含む)は3.42 GB。
- タータリーBonsai Image 4B:トランスフォーマーのフットプリントは1.21 GB(6.4倍削減)。Apple Siliconペイロードは3.88 GB。
- 512×512生成時の平均アクティブメモリ:1.5 GB(1ビット)/ 1.96 GB(タータリー)(元のFLUX.2 Klein 4Bは11.74 GB)。
- 1024×1024の場合:1.95 GB / 2.38 GB(元は14.39 GB)。
パフォーマンスベンチマーク
このモデルはApple Silicon(iPhone、iPad、Mac)上でMLXの低ビットパスを介して、またCUDA GPU上でGemliteの低ビットGEMMカーネルを介して動作します。生成時間は以下の通り:
- iPhone 17 Pro Max:512×512画像で9.4秒
- Mac M4 Pro:512×512画像で約6秒(標準のフル精度MFLUXパイプラインより最大5.6倍高速)
トランスフォーマーの削減はバイナリ/タータリー層(FP16比で約14倍/10倍圧縮)により達成され、精度に敏感な少数の射影層(約5%)はFP16のまま維持されます。モデルはGenEval、HPSv3、DPG-Benchで品質とプロンプト忠実度が評価されています。
対象ユーザー
デバイス上(ラップトップ、スマートフォン、エッジデバイス)で画像生成を展開する開発者で、オープンウェイトと実用的なローカル推論をクラウド依存なしに必要とする方。
📖 出典全文: HN LLM Tools
👀 See Also

クロードのソースコード流出により、反蒸留機能、潜入モード、フラストレーション検知が明らかに
Claude Codeのnpmパッケージから流出したソースコードマップファイルにより、偽ツールを用いた蒸留防止技術、AIの作成者を隠すアンダーカバーモード、正規表現パターンによるフラストレーション検出が明らかになりました。

TranslateGemma-12b: 自動評価指標が見逃したエラーの71%を人間のレビューが発見
人間によるMQMレビューにより、自動評価指標で問題なしとされた翻訳セグメントの71%にフラグが立てられ、25件の正確性エラーはすべて指標が検出できない領域にありました。

生産用AIエージェントにおけるOpenClawの3つの重大なギャップ
開発者は、AIエージェントが真の従業員として機能するのを妨げるOpenClawの3つの不足機能を特定しました:監査可能性、詳細なアクション制御、指示解決です。

Claude Code IDE拡張機能がWindowsで読み込みに失敗 – 状況更新
公式のステータス更新によると、Claude Code IDE拡張機能が2026-05-08T22:32:19Z現在、Windowsで読み込めない状態です。ステータスページで進捗と解決を追跡してください。