Codebook-Verlustfreie LLM-Kompression: 10–25 % RAM-Reduzierung durch Bitweise Packung

✍️ OpenClawRadar📅 Veröffentlicht: 15. März 2026🔗 Source
Codebook-Verlustfreie LLM-Kompression: 10–25 % RAM-Reduzierung durch Bitweise Packung
Ad

Ein Entwickler hat einen Proof-of-Concept-Code für verlustfreie LLM-Kompression veröffentlicht, der durch bitweises generisches Packen indizierter Gewichte den Speicherverbrauch um 10-25% reduziert. Die Technik tauscht etwas Inferenzgeschwindigkeit gegen eine kleinere Modellgröße, wodurch größere Modelle auf Hardware mit begrenztem VRAM ausgeführt werden können.

Wie es funktioniert

Der Entwickler begann damit, zu fragen, wie viele eindeutige Werte tatsächlich in LLM-Schichten existieren. Die Analyse ergab, dass während fp16 16 Bits verwendet, die meisten Modelle nur etwa 12-13 Bits an eindeutigen Werten nutzen. Durch das Packen dieser Werte in Blöcke erreicht die Technik Kompression ohne Genauigkeitsverlust.

Leistungsmerkmale

  • RAM-Reduzierung: 10-25%+ über getestete Modelle
  • Geschwindigkeitsauswirkung: Inferenzgeschwindigkeit in Beispieltests etwa halbiert
  • Testhardware: NVIDIA P2200 (5GB) und CPU, mit Entwicklungsupdates für AMD MI50 (32GB)
Ad

Implementierungsdetails

Der Entwickler arbeitete mehrere Wochen an diesem Projekt unter Verwendung von KI-Codierungsassistenten, darunter Claude, Qwen und Gemini. Das Repository enthält sowohl verlustfreie als auch verlustbehaftete/ausgeglichene Versionen, wobei die verlustbehaftete Version noch nicht umfassend getestet wurde.

Der Entwickler schlägt vor, dass dieser Kompressionsansatz als Möglichkeit dienen könnte, die "Kompaktheit" eines Modells zu messen – wie effizient es seinen Parameterraum nutzt.

Code-Verfügbarkeit

Der Proof-of-Concept-Code ist auf GitHub verfügbar: https://github.com/bigattichouse/Codebook-Quantization

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Schnellfragen-Plugin automatisiert Unity-Entwicklung mit Claude Code
Werkzeuge

Schnellfragen-Plugin automatisiert Unity-Entwicklung mit Claude Code

Ein Entwickler hat quick-question veröffentlicht, ein macOS-Plugin für Unity 2021.3+, das Kompilierung, Tests und Cross-Model-Code-Review automatisiert, wenn Claude Code verwendet wird. Das Tool umfasst 20 Slash-Befehle und nutzt ein 'Tribunal'-Muster, bei dem Codex und Claude die Ergebnisse des jeweils anderen überprüfen.

OpenClawRadar
Der Aufbau eines autonomen Forschungsagents mit C# und lokalen LLMs
Werkzeuge

Der Aufbau eines autonomen Forschungsagents mit C# und lokalen LLMs

Ein C#-Forschungsagent automatisiert die URL-Verarbeitung mit lokalen LLMs, die Ollama und llama3.1:8b verwenden, und erstellt strukturierte Markdown-Berichte aus Web-Suchen.

OpenClawRadar
Zoku: Ein Tool, das wiederholte Workflows in Claude-Code automatisch erkennt
Werkzeuge

Zoku: Ein Tool, das wiederholte Workflows in Claude-Code automatisch erkennt

Zoku ist ein lokales Tool, das sich in das Ereignissystem von Claude Code einklinkt, um Tool-Aktionen über Sitzungen hinweg aufzuzeichnen, wiederkehrende Arbeitsablaufmuster zu identifizieren und Claude dann über diese Muster zu informieren, damit es sie proaktiv vorschlagen oder ausführen kann. Es erfordert keine Konfiguration, hat keine Abhängigkeiten und speichert alles lokal in ~/.zoku/.

OpenClawRadar
Unsloth Studio ermöglicht eine doppelt so schnelle Trainingsgeschwindigkeit bei 70 % weniger VRAM-Bedarf für lokales KI-Finetuning.
Werkzeuge

Unsloth Studio ermöglicht eine doppelt so schnelle Trainingsgeschwindigkeit bei 70 % weniger VRAM-Bedarf für lokales KI-Finetuning.

Unsloth Studio bietet Werkzeuge, um Sprachmodelle auf lokaler Hardware zu trainieren und zu verfeinern, mit doppelter Trainingsgeschwindigkeit und 70 % weniger VRAM-Bedarf. Es unterstützt den Export von Modellen ins GGUF-Format für die Nutzung mit Ollama und ermöglicht vollständige lokale KI-Codierungs-Workflows auf 24-GB-Hardware wie der RTX 4090.

OpenClawRadar