Compresión LLM sin Pérdidas con Codebook: Reducción de RAM del 10-25% mediante Empaquetamiento Bit a Bit

✍️ OpenClawRadar📅 Publicado: 15 de marzo de 2026🔗 Source
Compresión LLM sin Pérdidas con Codebook: Reducción de RAM del 10-25% mediante Empaquetamiento Bit a Bit
Ad

Un desarrollador ha publicado código de prueba de concepto para la compresión sin pérdida de LLM que reduce el uso de memoria en un 10-25% mediante el empaquetado genérico bit a bit de pesos indexados. La técnica intercambia algo de velocidad de inferencia por un tamaño de modelo más pequeño, haciendo posible ejecutar modelos más grandes en hardware con VRAM limitada.

Cómo funciona

El desarrollador comenzó preguntándose cuántos valores únicos existen realmente en las capas de LLM. El análisis reveló que, aunque fp16 usa 16 bits, la mayoría de los modelos solo utilizan alrededor de 12-13 bits de valores únicos. Al empaquetar estos valores en bloques, la técnica logra compresión sin perder precisión.

Características de rendimiento

  • Reducción de RAM: 10-25%+ en los modelos probados
  • Impacto en la velocidad: La velocidad de inferencia se reduce aproximadamente a la mitad en las pruebas de ejemplo
  • Hardware de prueba: NVIDIA P2200 (5GB) y CPU, con actualizaciones en desarrollo para AMD MI50 (32GB)
Ad

Detalles de implementación

El desarrollador trabajó en este proyecto durante varias semanas utilizando asistentes de codificación con IA, incluidos Claude, Qwen y Gemini. El repositorio incluye versiones sin pérdida y con pérdida/equilibradas, aunque la versión con pérdida aún no ha sido probada extensamente.

El desarrollador sugiere que este enfoque de compresión podría servir como una forma de medir la "compacidad" de un modelo: qué tan eficientemente utiliza su espacio de parámetros.

Disponibilidad del código

El código de prueba de concepto está disponible en GitHub: https://github.com/bigattichouse/Codebook-Quantization

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Yozora-fm: Visualización Interactiva de Galaxia de Música Anime
Herramientas

Yozora-fm: Visualización Interactiva de Galaxia de Música Anime

Yozora-fm es una visualización interactiva donde cada estrella representa una canción de apertura o cierre de anime, con más de 9,000 pistas mapeadas por género y época. Los usuarios pueden hacer clic en las estrellas para reproducir videos o explorar la interfaz galáctica.

OpenClawRadar
Hypura: Programador de inferencia de LLM consciente del nivel de almacenamiento para Apple Silicon
Herramientas

Hypura: Programador de inferencia de LLM consciente del nivel de almacenamiento para Apple Silicon

Hypura es un planificador de inferencia basado en Rust que distribuye los tensores del modelo entre las capas de GPU, RAM y NVMe para ejecutar modelos que superan la memoria física en Macs con Apple Silicon. Permite ejecutar un Mixtral 8x7B de 31 GB en un Mac Mini de 32 GB a 2.2 tok/s y un Llama 70B de 40 GB a 0.3 tok/s, mientras que llama.cpp estándar falla.

OpenClawRadar
Servidor MCP de Análisis con Claude Primero: Dando a los Agentes de IA Acceso Directo al Contexto de Analítica Web
Herramientas

Servidor MCP de Análisis con Claude Primero: Dando a los Agentes de IA Acceso Directo al Contexto de Analítica Web

Un desarrollador reconstruyó su herramienta de análisis web como un servidor MCP, exponiendo análisis web simples, enlaces rastreables y herramientas de información del producto directamente a Claude, permitiendo que los agentes de IA aprovechen los datos del sitio junto con el contexto de código y base de datos.

OpenClawRadar
HostedShell: Una Solución de Implementación Basada en Web para Agentes OpenClaw
Herramientas

HostedShell: Una Solución de Implementación Basada en Web para Agentes OpenClaw

HostedShell es una versión alojada de OpenClaw que elimina la configuración local de la CLI, la gestión de dependencias y el emparejamiento manual al proporcionar una consola web con acceso directo al terminal y actualizaciones del sistema de archivos.

OpenClawRadar