Codebook Lossless LLM Compression : Réduction de 10 à 25 % de la RAM grâce au Bitwise Packing

Un développeur a publié un code de preuve de concept pour la compression LLM sans perte qui réduit l'utilisation de la mémoire de 10 à 25 % grâce à un regroupement générique bit à bit des poids indexés. La technique échange une partie de la vitesse d'inférence contre une taille de modèle plus petite, permettant d'exécuter des modèles plus volumineux sur du matériel à VRAM limitée.
Fonctionnement
Le développeur a commencé par se demander combien de valeurs uniques existent réellement dans les couches LLM. L'analyse a révélé que si le fp16 utilise 16 bits, la plupart des modèles n'utilisent qu'environ 12 à 13 bits de valeurs uniques. En regroupant ces valeurs en blocs, la technique obtient une compression sans perte de précision.
Caractéristiques de performance
- Réduction de RAM : 10-25 %+ sur les modèles testés
- Impact sur la vitesse : Vitesse d'inférence approximativement divisée par deux dans les tests d'exemple
- Matériel de test : NVIDIA P2200 (5 Go) et CPU, avec des mises à jour en développement pour AMD MI50 (32 Go)
Détails d'implémentation
Le développeur a travaillé sur ce projet pendant plusieurs semaines en utilisant des assistants de codage IA, dont Claude, Qwen et Gemini. Le dépôt comprend à la fois des versions sans perte et avec perte/équilibrées, bien que la version avec perte n'ait pas encore été largement testée.
Le développeur suggère que cette approche de compression pourrait servir à mesurer la « compacité » d'un modèle – à quel point il utilise efficacement son espace de paramètres.
Disponibilité du code
Le code de preuve de concept est disponible sur GitHub : https://github.com/bigattichouse/Codebook-Quantization
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Problèmes et solutions de contournement liés à la compaction des sessions Claude AI
La compaction par défaut dans les sessions Claude AI peut dégrader la précision de la récupération d'environ 9,75/10 à environ 5/10, provoquant des hallucinations. L'utilisateur a testé avec 418 000 tokens et a constaté que la compaction manuelle utilisant Opus maintient la précision tandis que la compaction par défaut échoue.

Développeur Crée le Langage de Programmation GALA avec Claude Code, Note que le Typage Fort Améliore la Fiabilité du Code Généré par l'IA
Un développeur a créé GALA, un langage de programmation fonctionnel qui se transpile en Go, en utilisant abondamment Claude Code. Le langage propose des types scellés, un filtrage par motif exhaustif, l'immutabilité par défaut et des monades, avec l'aide de Claude pour implémenter l'inférence de types, les transformateurs de filtrage par motif et la correction de plus de 40 bugs.

HomeButler : Gestion de laboratoire domestique sans jeton pour les agents OpenClaw
HomeButler est un binaire Go unique qui permet aux agents OpenClaw de gérer l'infrastructure du homelab sans clés API ni jetons. Il s'exécute localement et maintient toutes les opérations sur votre réseau.

AgentWorkingMemory : Un système de mémoire local pour les agents d'IA de codage
AgentWorkingMemory (AWM) est un système de mémoire locale qui résout le problème d'amnésie de session à session chez les agents d'IA de codage. Il utilise une base de données SQLite, trois modèles ML locaux (~124 Mo au total) et s'intègre automatiquement via MCP pour fournir une mémoire persistante et contextuelle entre les sessions de Claude Code.