Сжатие LLM без потерь: Codebook сокращает RAM на 10-25%

Разработчик опубликовал код для концептуальной демонстрации сжатия LLM без потерь, который сокращает использование памяти на 10-25% за счет битовой общей упаковки индексированных весов. Техника жертвует некоторой скоростью вывода ради уменьшения размера модели, что позволяет запускать более крупные модели на оборудовании с ограниченной видеопамятью.

Как это работает

Разработчик начал с вопроса о том, сколько уникальных значений фактически существует в слоях LLM. Анализ показал, что хотя fp16 использует 16 бит, большинство моделей задействуют только около 12-13 бит уникальных значений. Упаковывая эти значения в блоки, техника достигает сжатия без потери точности.

Характеристики производительности

Сокращение оперативной памяти: 10-25%+ на протестированных моделях
Влияние на скорость: Скорость вывода примерно вдвое ниже в тестовых примерах
Тестовое оборудование: NVIDIA P2200 (5 ГБ) и процессор, с разработкой обновлений для AMD MI50 (32 ГБ)

Детали реализации

Разработчик работал над этим проектом несколько недель с помощью ИИ-ассистентов для программирования, включая Claude, Qwen и Gemini. Репозиторий содержит как версию без потерь, так и версию с потерями/сбалансированную, хотя версия с потерями ещё не прошла всестороннего тестирования.

Разработчик предполагает, что этот подход к сжатию может служить способом измерения «компактности» модели — насколько эффективно она использует своё пространство параметров.

Доступность кода

Код для концептуальной демонстрации доступен на GitHub: https://github.com/bigattichouse/Codebook-Quantization

📖 Read the full source: r/LocalLLaMA

Сжатие LLM без потерь с использованием Codebook: сокращение оперативной памяти на 10-25% с помощью побитовой упаковки

Как это работает

Характеристики производительности

Детали реализации

Доступность кода

👀 Смотрите также

Плагин Claude Code запускает DOOM в терминале, пока ИИ размышляет

Attesor: Обратная разработка на основе ИИ Rosetta 2 для виртуальной машины Linux

devcontainer-mcp: Предоставьте ИИ-агентам собственную среду разработки, а не вашу

Анализ инструментов AI для программирования: Разбор 3,177 API-вызовов