Compresión LLM sin Pérdidas con Codebook: Reducción de RAM del 10-25% mediante Empaquetamiento Bit a Bit

✍️ OpenClawRadar📅 Publicado: 15 de marzo de 2026🔗 Source
Compresión LLM sin Pérdidas con Codebook: Reducción de RAM del 10-25% mediante Empaquetamiento Bit a Bit
Ad

Un desarrollador ha publicado código de prueba de concepto para la compresión sin pérdida de LLM que reduce el uso de memoria en un 10-25% mediante el empaquetado genérico bit a bit de pesos indexados. La técnica intercambia algo de velocidad de inferencia por un tamaño de modelo más pequeño, haciendo posible ejecutar modelos más grandes en hardware con VRAM limitada.

Cómo funciona

El desarrollador comenzó preguntándose cuántos valores únicos existen realmente en las capas de LLM. El análisis reveló que, aunque fp16 usa 16 bits, la mayoría de los modelos solo utilizan alrededor de 12-13 bits de valores únicos. Al empaquetar estos valores en bloques, la técnica logra compresión sin perder precisión.

Características de rendimiento

  • Reducción de RAM: 10-25%+ en los modelos probados
  • Impacto en la velocidad: La velocidad de inferencia se reduce aproximadamente a la mitad en las pruebas de ejemplo
  • Hardware de prueba: NVIDIA P2200 (5GB) y CPU, con actualizaciones en desarrollo para AMD MI50 (32GB)
Ad

Detalles de implementación

El desarrollador trabajó en este proyecto durante varias semanas utilizando asistentes de codificación con IA, incluidos Claude, Qwen y Gemini. El repositorio incluye versiones sin pérdida y con pérdida/equilibradas, aunque la versión con pérdida aún no ha sido probada extensamente.

El desarrollador sugiere que este enfoque de compresión podría servir como una forma de medir la "compacidad" de un modelo: qué tan eficientemente utiliza su espacio de parámetros.

Disponibilidad del código

El código de prueba de concepto está disponible en GitHub: https://github.com/bigattichouse/Codebook-Quantization

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también