Compressão Sem Perdas de LLM: Reduza RAM em 25% com Empacotamento Bitwise

Um desenvolvedor publicou um código de prova de conceito para compressão sem perdas de LLMs que reduz o uso de memória em 10-25% por meio do empacotamento genérico bit a bit de pesos indexados. A técnica troca um pouco da velocidade de inferência por um tamanho de modelo menor, tornando possível executar modelos maiores em hardware com VRAM limitada.

Como Funciona

O desenvolvedor começou perguntando quantos valores únicos realmente existem nas camadas de LLMs. A análise revelou que, embora o fp16 use 16 bits, a maioria dos modelos utiliza apenas cerca de 12-13 bits de valores únicos. Ao empacotar esses valores em blocos, a técnica alcança compressão sem perder precisão.

Características de Desempenho

Redução de RAM: 10-25%+ nos modelos testados
Impacto na velocidade: Velocidade de inferência aproximadamente reduzida pela metade nos testes de exemplo
Hardware de teste: NVIDIA P2200 (5GB) e CPU, com atualizações sendo desenvolvidas para AMD MI50 (32GB)

Detalhes de Implementação

O desenvolvedor trabalhou neste projeto por várias semanas usando assistentes de codificação com IA, incluindo Claude, Qwen e Gemini. O repositório inclui versões sem perdas e com perdas/equilibradas, embora a versão com perdas ainda não tenha sido extensivamente testada.

O desenvolvedor sugere que esta abordagem de compressão pode servir como uma forma de medir a "compactidade" de um modelo - quão eficientemente ele usa seu espaço de parâmetros.

Disponibilidade do Código

O código de prova de conceito está disponível no GitHub: https://github.com/bigattichouse/Codebook-Quantization

📖 Read the full source: r/LocalLLaMA

Codebook Lossless LLM Compression: Redução de 10-25% na RAM com Empacotamento Bitwise

Como Funciona

Características de Desempenho

Detalhes de Implementação

Disponibilidade do Código

👀 See Also

O plugin de código aberto do Claude gera sintonizadores visuais interativos com pré-visualização em tempo real

OpenBridge: Controle Remoto Gratuito e de Código Aberto para Claude Code via Slack/Discord

Brackish: Deixe Duas Instâncias do Claude Code Negociarem um Contrato de API via OpenAPI 3.1

Construindo um Espaço de Trabalho de IA Local de Código Aberto com Rust e Tauri