Codebook Lossless LLM Compression: Redução de 10-25% na RAM com Empacotamento Bitwise

Um desenvolvedor publicou um código de prova de conceito para compressão sem perdas de LLMs que reduz o uso de memória em 10-25% por meio do empacotamento genérico bit a bit de pesos indexados. A técnica troca um pouco da velocidade de inferência por um tamanho de modelo menor, tornando possível executar modelos maiores em hardware com VRAM limitada.
Como Funciona
O desenvolvedor começou perguntando quantos valores únicos realmente existem nas camadas de LLMs. A análise revelou que, embora o fp16 use 16 bits, a maioria dos modelos utiliza apenas cerca de 12-13 bits de valores únicos. Ao empacotar esses valores em blocos, a técnica alcança compressão sem perder precisão.
Características de Desempenho
- Redução de RAM: 10-25%+ nos modelos testados
- Impacto na velocidade: Velocidade de inferência aproximadamente reduzida pela metade nos testes de exemplo
- Hardware de teste: NVIDIA P2200 (5GB) e CPU, com atualizações sendo desenvolvidas para AMD MI50 (32GB)
Detalhes de Implementação
O desenvolvedor trabalhou neste projeto por várias semanas usando assistentes de codificação com IA, incluindo Claude, Qwen e Gemini. O repositório inclui versões sem perdas e com perdas/equilibradas, embora a versão com perdas ainda não tenha sido extensivamente testada.
O desenvolvedor sugere que esta abordagem de compressão pode servir como uma forma de medir a "compactidade" de um modelo - quão eficientemente ele usa seu espaço de parâmetros.
Disponibilidade do Código
O código de prova de conceito está disponível no GitHub: https://github.com/bigattichouse/Codebook-Quantization
📖 Read the full source: r/LocalLLaMA
👀 See Also

Marketing Wisdom MCP: Busca Semântica Gratuita para Insights de Startups
Um servidor MCP gratuito oferece busca semântica em 6.700 insights de 1.040 episódios dos podcasts My First Million e Starter Story. Ele disponibiliza quatro ferramentas para consultar sabedoria de fundadores sobre crescimento, marketing e estratégias de negócios.

TruthGuard: Ganchos de Script Shell que Detectam Mentiras de Agentes de IA de Programação
TruthGuard é uma ferramenta de código aberto que usa ganchos de script shell para verificar o que Claude Code e Gemini CLI realmente fazem versus o que afirmam. Ele detecta edições fantasmas, mentiras sobre códigos de saída, atalhos perigosos e bloqueia commits quando os testes falham.

ARP: Retransmissão WebSocket sem Estado para Comunicação de Agentes Autônomos
ARP (Agent Relay Protocol) é um retransmissor WebSocket sem estado para comunicação entre agentes autônomos, apresentando identidade Ed25519, criptografia HPKE conforme RFC 9180, enquadramento binário TLV e 33 bytes de sobrecarga por mensagem. Nenhuma conta ou registro necessário—basta gerar um par de chaves e conectar.

Gemma4 26B-A4B Oferece Desempenho Local Rápido com Suporte a Busca na Web e Imagens
O modelo gemma-4-26B-A4B alcança aproximadamente 145 tokens por segundo em uma RTX 4090 e inclui suporte a pesquisa na web MCP e imagens para aplicativos de chat. Um post de blog detalha a configuração e uso multiplataforma em Mac e iPhone.