LLM Compression: 10-25% RAM Reduction via Lossless Codebook Bit Packing

Un desarrollador ha publicado código de prueba de concepto para la compresión sin pérdida de LLM que reduce el uso de memoria en un 10-25% mediante el empaquetado genérico bit a bit de pesos indexados. La técnica intercambia algo de velocidad de inferencia por un tamaño de modelo más pequeño, haciendo posible ejecutar modelos más grandes en hardware con VRAM limitada.

Cómo funciona

El desarrollador comenzó preguntándose cuántos valores únicos existen realmente en las capas de LLM. El análisis reveló que, aunque fp16 usa 16 bits, la mayoría de los modelos solo utilizan alrededor de 12-13 bits de valores únicos. Al empaquetar estos valores en bloques, la técnica logra compresión sin perder precisión.

Características de rendimiento

Reducción de RAM: 10-25%+ en los modelos probados
Impacto en la velocidad: La velocidad de inferencia se reduce aproximadamente a la mitad en las pruebas de ejemplo
Hardware de prueba: NVIDIA P2200 (5GB) y CPU, con actualizaciones en desarrollo para AMD MI50 (32GB)

Detalles de implementación

El desarrollador trabajó en este proyecto durante varias semanas utilizando asistentes de codificación con IA, incluidos Claude, Qwen y Gemini. El repositorio incluye versiones sin pérdida y con pérdida/equilibradas, aunque la versión con pérdida aún no ha sido probada extensamente.

El desarrollador sugiere que este enfoque de compresión podría servir como una forma de medir la "compacidad" de un modelo: qué tan eficientemente utiliza su espacio de parámetros.

Disponibilidad del código

El código de prueba de concepto está disponible en GitHub: https://github.com/bigattichouse/Codebook-Quantization

📖 Read the full source: r/LocalLLaMA

Compresión LLM sin Pérdidas con Codebook: Reducción de RAM del 10-25% mediante Empaquetamiento Bit a Bit

Cómo funciona

Características de rendimiento

Detalles de implementación

Disponibilidad del código

👀 Ver también

Protocolo Piloto: Capa de Red para Agentes OpenClaw

Galadriel: Arnés de caché cálido de código abierto para agentes persistentes de Claude

OpenMind agrega una interfaz visual de mapa mental a las instalaciones de OpenClaw.

CLAUDE.md: El archivo de reemplazo reduce los tokens de salida de Claude en un 63%