Codebook Lossless LLM Compression: Redução de 10-25% na RAM com Empacotamento Bitwise

✍️ OpenClawRadar📅 Publicado: March 15, 2026🔗 Source
Codebook Lossless LLM Compression: Redução de 10-25% na RAM com Empacotamento Bitwise
Ad

Um desenvolvedor publicou um código de prova de conceito para compressão sem perdas de LLMs que reduz o uso de memória em 10-25% por meio do empacotamento genérico bit a bit de pesos indexados. A técnica troca um pouco da velocidade de inferência por um tamanho de modelo menor, tornando possível executar modelos maiores em hardware com VRAM limitada.

Como Funciona

O desenvolvedor começou perguntando quantos valores únicos realmente existem nas camadas de LLMs. A análise revelou que, embora o fp16 use 16 bits, a maioria dos modelos utiliza apenas cerca de 12-13 bits de valores únicos. Ao empacotar esses valores em blocos, a técnica alcança compressão sem perder precisão.

Características de Desempenho

  • Redução de RAM: 10-25%+ nos modelos testados
  • Impacto na velocidade: Velocidade de inferência aproximadamente reduzida pela metade nos testes de exemplo
  • Hardware de teste: NVIDIA P2200 (5GB) e CPU, com atualizações sendo desenvolvidas para AMD MI50 (32GB)
Ad

Detalhes de Implementação

O desenvolvedor trabalhou neste projeto por várias semanas usando assistentes de codificação com IA, incluindo Claude, Qwen e Gemini. O repositório inclui versões sem perdas e com perdas/equilibradas, embora a versão com perdas ainda não tenha sido extensivamente testada.

O desenvolvedor sugere que esta abordagem de compressão pode servir como uma forma de medir a "compactidade" de um modelo - quão eficientemente ele usa seu espaço de parâmetros.

Disponibilidade do Código

O código de prova de conceito está disponível no GitHub: https://github.com/bigattichouse/Codebook-Quantization

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Marketing Wisdom MCP: Busca Semântica Gratuita para Insights de Startups
Tools

Marketing Wisdom MCP: Busca Semântica Gratuita para Insights de Startups

Um servidor MCP gratuito oferece busca semântica em 6.700 insights de 1.040 episódios dos podcasts My First Million e Starter Story. Ele disponibiliza quatro ferramentas para consultar sabedoria de fundadores sobre crescimento, marketing e estratégias de negócios.

OpenClawRadar
TruthGuard: Ganchos de Script Shell que Detectam Mentiras de Agentes de IA de Programação
Tools

TruthGuard: Ganchos de Script Shell que Detectam Mentiras de Agentes de IA de Programação

TruthGuard é uma ferramenta de código aberto que usa ganchos de script shell para verificar o que Claude Code e Gemini CLI realmente fazem versus o que afirmam. Ele detecta edições fantasmas, mentiras sobre códigos de saída, atalhos perigosos e bloqueia commits quando os testes falham.

OpenClawRadar
ARP: Retransmissão WebSocket sem Estado para Comunicação de Agentes Autônomos
Tools

ARP: Retransmissão WebSocket sem Estado para Comunicação de Agentes Autônomos

ARP (Agent Relay Protocol) é um retransmissor WebSocket sem estado para comunicação entre agentes autônomos, apresentando identidade Ed25519, criptografia HPKE conforme RFC 9180, enquadramento binário TLV e 33 bytes de sobrecarga por mensagem. Nenhuma conta ou registro necessário—basta gerar um par de chaves e conectar.

OpenClawRadar
Gemma4 26B-A4B Oferece Desempenho Local Rápido com Suporte a Busca na Web e Imagens
Tools

Gemma4 26B-A4B Oferece Desempenho Local Rápido com Suporte a Busca na Web e Imagens

O modelo gemma-4-26B-A4B alcança aproximadamente 145 tokens por segundo em uma RTX 4090 e inclui suporte a pesquisa na web MCP e imagens para aplicativos de chat. Um post de blog detalha a configuração e uso multiplataforma em Mac e iPhone.

OpenClawRadar