Compresión LLM sin Pérdidas con Codebook: Reducción de RAM del 10-25% mediante Empaquetamiento Bit a Bit

Un desarrollador ha publicado código de prueba de concepto para la compresión sin pérdida de LLM que reduce el uso de memoria en un 10-25% mediante el empaquetado genérico bit a bit de pesos indexados. La técnica intercambia algo de velocidad de inferencia por un tamaño de modelo más pequeño, haciendo posible ejecutar modelos más grandes en hardware con VRAM limitada.
Cómo funciona
El desarrollador comenzó preguntándose cuántos valores únicos existen realmente en las capas de LLM. El análisis reveló que, aunque fp16 usa 16 bits, la mayoría de los modelos solo utilizan alrededor de 12-13 bits de valores únicos. Al empaquetar estos valores en bloques, la técnica logra compresión sin perder precisión.
Características de rendimiento
- Reducción de RAM: 10-25%+ en los modelos probados
- Impacto en la velocidad: La velocidad de inferencia se reduce aproximadamente a la mitad en las pruebas de ejemplo
- Hardware de prueba: NVIDIA P2200 (5GB) y CPU, con actualizaciones en desarrollo para AMD MI50 (32GB)
Detalles de implementación
El desarrollador trabajó en este proyecto durante varias semanas utilizando asistentes de codificación con IA, incluidos Claude, Qwen y Gemini. El repositorio incluye versiones sin pérdida y con pérdida/equilibradas, aunque la versión con pérdida aún no ha sido probada extensamente.
El desarrollador sugiere que este enfoque de compresión podría servir como una forma de medir la "compacidad" de un modelo: qué tan eficientemente utiliza su espacio de parámetros.
Disponibilidad del código
El código de prueba de concepto está disponible en GitHub: https://github.com/bigattichouse/Codebook-Quantization
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Protocolo Piloto: Capa de Red para Agentes OpenClaw
Pilot Protocol es una capa de red de código abierto que maneja la conectividad entre agentes OpenClaw en diferentes máquinas. Proporciona direcciones virtuales permanentes, túneles UDP cifrados y atravesamiento NAT sin VPNs ni ngrok.

Galadriel: Arnés de caché cálido de código abierto para agentes persistentes de Claude
Galadriel es un arnés de almacenamiento en caché apilado de 3 niveles para Claude que reduce los costos en un 87% y la latencia a menos de 3s para indicaciones de 100K tokens. Integra MemPalace para memoria vectorial persistente.

OpenMind agrega una interfaz visual de mapa mental a las instalaciones de OpenClaw.
OpenMind es una herramienta de código abierto que transforma las instalaciones de OpenClaw en mapas mentales interactivos y editables en vivo con visualización de memoria en tiempo real, lógica intercambiable en caliente y búsqueda de texto completo en todos los nodos.

CLAUDE.md: El archivo de reemplazo reduce los tokens de salida de Claude en un 63%
CLAUDE.md es un archivo único que reduce la verbosidad de la salida de Claude aproximadamente un 63% sin cambios en el código. Se enfoca en la adulación, verbosidad y ruido de formato en las respuestas de Claude.