コードブック ロスレス LLM 圧縮:ビット単位パッキングによる10〜25%のRAM削減

開発者が、インデックス化された重みのビット単位の汎用パッキングによりメモリ使用量を10〜25%削減するロスレスLLM圧縮の概念実証コードを公開しました。この技術は、一部の推論速度を犠牲にしてモデルサイズを小さくすることで、VRAMが限られたハードウェアでより大きなモデルを実行可能にします。
仕組み
開発者はまず、LLMレイヤーに実際に存在する固有の値の数を調査しました。分析の結果、fp16は16ビットを使用しますが、ほとんどのモデルは約12〜13ビットの固有の値しか利用していないことが明らかになりました。これらの値をブロックにパッキングすることで、精度を損なうことなく圧縮を実現しています。
性能特性
- RAM削減: テスト済みモデル全体で10〜25%以上
- 速度への影響: 例示テストでは推論速度が約半分に
- テストハードウェア: NVIDIA P2200 (5GB) と CPU、AMD MI50 (32GB) 向けの更新を開発中
実装の詳細
開発者は、Claude、Qwen、GeminiなどのAIコーディングアシスタントを使用して数週間にわたりこのプロジェクトに取り組みました。リポジトリにはロスレス版とロッシー/バランス版の両方が含まれていますが、ロッシー版はまだ十分にテストされていません。
開発者は、この圧縮手法がモデルの「コンパクトさ」—パラメータ空間をどれだけ効率的に使用しているか—を測定する方法として役立つ可能性を示唆しています。
コードの入手先
概念実証コードはGitHubで入手可能です: https://github.com/bigattichouse/Codebook-Quantization
📖 Read the full source: r/LocalLLaMA
👀 See Also

Claudeデスクトップアプリの「Cowork」機能は、共有Googleドキュメントを通じてAI同士の通信を可能にします。
ユーザーは、デスクトップアプリの新しい共同作業機能を使用して、Claude間の通信を実装することに成功しました。2つのエージェントが共有のGoogleドキュメントを読み書きし、AIエージェント間で5回の質疑応答ダイアログが行われました。

altRAG:AIコーディングエージェント向けにベクトルDB RAGを2KBポインタファイルで置き換える
altRAGは、ベクトルデータベースRAGを軽量なポインタファイルに置き換えるPythonツールです。Markdown/YAMLスキルファイルをスキャンして、セクションを正確な行番号とバイトオフセットにマッピングする2KBのスケルトンファイルを作成し、AIエージェントが必要なセクションのみを読み取れるようにします。

CloudRouterは、VMとGPUの管理でAIコーディングエージェントを強化します
CloudRouterは、AIコーディングエージェントがクラウドVMとGPUを自律的に起動・管理できるCLIツールを導入し、ブラウザ認証やGPU集約型ワークロードなどのタスクを自動化します。

Claude AI セッションの圧縮問題と回避策
Claude AIセッションでのデフォルトの圧縮処理は、検索精度を約9.75/10から約5/10に低下させ、幻覚を引き起こす可能性があります。ユーザーは418Kトークンでテストを行い、Opusを使用した手動圧縮では精度が維持される一方、デフォルトの圧縮処理では失敗することを確認しました。