1-bit Qwen3モデルをテスト：107 t/sで8GB VRAM対応

Bonsaiモデル：PrismMLによる1ビットQwen量子化

PrismMLは、Qwen3モデル（8B、4B、1.7Bパラメータ）の1ビット量子化バージョンであるBonsaiをリリースしました。これらのモデルは極端な量子化を使用してメモリ要件を劇的に削減しつつ、特定のタスクで使用可能な性能を維持しています。

テストによる性能ベンチマーク

RTX 4060（8GB VRAM）でのテスト結果：

107トークン/秒の生成速度
>1114トークン/秒のプロンプト処理速度
Q4量子化モデルと比較して大幅に低いRAM使用量

比較として、同じハードウェアで同じプロンプトを使用した場合、Qwen 3.5 4B Q4は56トークン/秒を達成しました。

実用的な意義

メモリ使用量の削減により、8GB VRAMシステムで8Bパラメータモデルを実行可能になります。より小さなモデルは、メモリ節約により長いコンテキストウィンドウで使用できます。

品質評価

初期テストはテキスト要約に焦点を当て、モデルは良好な性能を示しました。テスト担当者は、コーディングやツール使用能力は評価していないと述べています。

技術的制限

現在の実装にはCPU推論の問題があります。GPUなしのミニPCでテストした場合：

llama.cppフォークは正常にコンパイルされる
モデルは読み込まれるが、プロンプト処理中にハングする
分析によると、CPU実装は存在せず、FP32に逆量子化して通常の推論を試みている可能性があり、CPUでは極端に遅くなるだろう

技術的可能性

1ビットモデルは、帯域幅とメモリ要件だけでなく、計算要件も削減できる可能性があります。1ビット行列の行列乗算はXOR演算を使用でき、浮動小数点演算よりもはるかに高速です。XOR演算後にFP16にスケーリングする場合でも、大幅な計算節約が可能であり、CPUのみの推論やエッジコンピューティングのシナリオに利益をもたらす可能性があります。