ロスレスLLM圧縮：ビット単位パッキングでRAM10〜25％削減

開発者が、インデックス化された重みのビット単位の汎用パッキングによりメモリ使用量を10〜25%削減するロスレスLLM圧縮の概念実証コードを公開しました。この技術は、一部の推論速度を犠牲にしてモデルサイズを小さくすることで、VRAMが限られたハードウェアでより大きなモデルを実行可能にします。

仕組み

開発者はまず、LLMレイヤーに実際に存在する固有の値の数を調査しました。分析の結果、fp16は16ビットを使用しますが、ほとんどのモデルは約12〜13ビットの固有の値しか利用していないことが明らかになりました。これらの値をブロックにパッキングすることで、精度を損なうことなく圧縮を実現しています。

開発者は、Claude、Qwen、GeminiなどのAIコーディングアシスタントを使用して数週間にわたりこのプロジェクトに取り組みました。リポジトリにはロスレス版とロッシー/バランス版の両方が含まれていますが、ロッシー版はまだ十分にテストされていません。

開発者は、この圧縮手法がモデルの「コンパクトさ」—パラメータ空間をどれだけ効率的に使用しているか—を測定する方法として役立つ可能性を示唆しています。

📖 Read the full source: r/LocalLLaMA