무손실 LLM 압축: 비트 패킹으로 RAM 10-25% 감소

개발자가 무손실 LLM 압축을 위한 개념 증명 코드를 공개했습니다. 이 코드는 인덱싱된 가중치의 비트 단위 일반 패킹을 통해 메모리 사용량을 10-25% 줄입니다. 이 기술은 더 작은 모델 크기를 위해 일부 추론 속도를 희생하여, 제한된 VRAM을 가진 하드웨어에서 더 큰 모델을 실행할 수 있게 합니다.

작동 원리

개발자는 먼저 LLM 레이어에 실제로 존재하는 고유 값이 얼마나 되는지 질문으로 시작했습니다. 분석 결과, fp16이 16비트를 사용하지만 대부분의 모델은 약 12-13비트의 고유 값만 활용한다는 것이 밝혀졌습니다. 이러한 값을 블록으로 패킹함으로써, 이 기술은 정밀도를 잃지 않고 압축을 달성합니다.

성능 특성

RAM 감소: 테스트된 모델에서 10-25%+
속도 영향: 예시 테스트에서 추론 속도가 약 절반으로 감소
테스트 하드웨어: NVIDIA P2200(5GB) 및 CPU, AMD MI50(32GB)용 업데이트 개발 중

구현 세부 사항

개발자는 Claude, Qwen, Gemini를 포함한 AI 코딩 어시스턴트를 사용하여 몇 주 동안 이 프로젝트에 작업했습니다. 저장소에는 무손실 버전과 손실/균형 버전이 모두 포함되어 있지만, 손실 버전은 아직 광범위하게 테스트되지 않았습니다.

개발자는 이 압축 접근법이 모델의 "압축성"—매개변수 공간을 얼마나 효율적으로 사용하는지—를 측정하는 방법으로 활용될 수 있다고 제안합니다.

코드 가용성

개념 증명 코드는 GitHub에서 사용할 수 있습니다: https://github.com/bigattichouse/Codebook-Quantization

📖 Read the full source: r/LocalLLaMA

코드북 무손실 LLM 압축: 비트 단위 패킹으로 10-25% RAM 감소 달성

작동 원리

성능 특성

구현 세부 사항

코드 가용성

👀 See Also

Cloken: 클로드 실시간 컨텍스트 사용량을 백분율로 표시하는 크롬 확장 프로그램

불소리 벤치마크 테스트: LLM의 무의미한 프롬프트에 대한 저항력

StarSteady: AI 기반 구글 리뷰 응답 및 지역 비즈니스를 위한 SMS 요청

EU AI 법 준수를 위한 오픈소스 아티클 12 로깅 라이브러리