Codebook Lossless LLM Compression : Réduction RAM 10-25%

Un développeur a publié un code de preuve de concept pour la compression LLM sans perte qui réduit l'utilisation de la mémoire de 10 à 25 % grâce à un regroupement générique bit à bit des poids indexés. La technique échange une partie de la vitesse d'inférence contre une taille de modèle plus petite, permettant d'exécuter des modèles plus volumineux sur du matériel à VRAM limitée.

Fonctionnement

Le développeur a commencé par se demander combien de valeurs uniques existent réellement dans les couches LLM. L'analyse a révélé que si le fp16 utilise 16 bits, la plupart des modèles n'utilisent qu'environ 12 à 13 bits de valeurs uniques. En regroupant ces valeurs en blocs, la technique obtient une compression sans perte de précision.

Caractéristiques de performance

Réduction de RAM : 10-25 %+ sur les modèles testés
Impact sur la vitesse : Vitesse d'inférence approximativement divisée par deux dans les tests d'exemple
Matériel de test : NVIDIA P2200 (5 Go) et CPU, avec des mises à jour en développement pour AMD MI50 (32 Go)

Détails d'implémentation

Le développeur a travaillé sur ce projet pendant plusieurs semaines en utilisant des assistants de codage IA, dont Claude, Qwen et Gemini. Le dépôt comprend à la fois des versions sans perte et avec perte/équilibrées, bien que la version avec perte n'ait pas encore été largement testée.

Le développeur suggère que cette approche de compression pourrait servir à mesurer la « compacité » d'un modèle – à quel point il utilise efficacement son espace de paramètres.

Disponibilité du code

Le code de preuve de concept est disponible sur GitHub : https://github.com/bigattichouse/Codebook-Quantization

📖 Lire la source complète : r/LocalLLaMA

Codebook Lossless LLM Compression : Réduction de 10 à 25 % de la RAM grâce au Bitwise Packing

Fonctionnement

Caractéristiques de performance

Détails d'implémentation

Disponibilité du code

👀 See Also

MCP Server connecte Claude Code/Desktop à Apple Music — Listes de lecture, Recherche, Analyse de profil

lazyclaude : Une interface utilisateur en terminal pour gérer la configuration du code Claude

La Compétence Clawhub Permet à OpenClaw d'Analyser les Données Apple Health via API

AlphaCreek : un serveur MCP qui segmente les dépôts SEC pour réduire l’utilisation des tokens de 85 %