Сжатие LLM без потерь с использованием Codebook: сокращение оперативной памяти на 10-25% с помощью побитовой упаковки

Разработчик опубликовал код для концептуальной демонстрации сжатия LLM без потерь, который сокращает использование памяти на 10-25% за счет битовой общей упаковки индексированных весов. Техника жертвует некоторой скоростью вывода ради уменьшения размера модели, что позволяет запускать более крупные модели на оборудовании с ограниченной видеопамятью.
Как это работает
Разработчик начал с вопроса о том, сколько уникальных значений фактически существует в слоях LLM. Анализ показал, что хотя fp16 использует 16 бит, большинство моделей задействуют только около 12-13 бит уникальных значений. Упаковывая эти значения в блоки, техника достигает сжатия без потери точности.
Характеристики производительности
- Сокращение оперативной памяти: 10-25%+ на протестированных моделях
- Влияние на скорость: Скорость вывода примерно вдвое ниже в тестовых примерах
- Тестовое оборудование: NVIDIA P2200 (5 ГБ) и процессор, с разработкой обновлений для AMD MI50 (32 ГБ)
Детали реализации
Разработчик работал над этим проектом несколько недель с помощью ИИ-ассистентов для программирования, включая Claude, Qwen и Gemini. Репозиторий содержит как версию без потерь, так и версию с потерями/сбалансированную, хотя версия с потерями ещё не прошла всестороннего тестирования.
Разработчик предполагает, что этот подход к сжатию может служить способом измерения «компактности» модели — насколько эффективно она использует своё пространство параметров.
Доступность кода
Код для концептуальной демонстрации доступен на GitHub: https://github.com/bigattichouse/Codebook-Quantization
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Плагин Claude Code запускает DOOM в терминале, пока ИИ размышляет
Разработчик создал плагин Claude Code, который отображает DOOM в виде всплывающего оверлея tmux во время обработки ИИ. Плагин использует doom-ascii, терминальный порт исходного кода DOOM, и автоматически запускается/закрывается при запросах.

Attesor: Обратная разработка на основе ИИ Rosetta 2 для виртуальной машины Linux
Attesor — это проект на GitHub, который использует искусственный интеллект для реверс-инжиниринга технологии бинарной трансляции Apple Rosetta 2. Цель проекта — задокументировать её архитектуру и, возможно, обеспечить трансляцию x86_64 в ARM64 на виртуальных машинах Linux.

devcontainer-mcp: Предоставьте ИИ-агентам собственную среду разработки, а не вашу
devcontainer-mcp — это MCP-сервер, который предоставляет 45 инструментов для AI-агентов, позволяющих создавать, управлять и работать внутри dev-контейнеров с использованием Docker, DevPod или GitHub Codespaces, сохраняя чистоту на хост-машине.

Анализ инструментов AI для программирования: Разбор 3,177 API-вызовов
Технический анализ 3,177 API-запросов раскрывает, как четыре инструмента ИИ для кодирования управляют контекстными окнами, выявляя неэффективности и различия.