Bonsai 1-bit Qwen3 테스트: 8GB VRAM에서 107 t/s

Bonsai 모델: PrismML의 1비트 Qwen 양자화

PrismML은 Qwen3 모델(8B, 4B, 1.7B 파라미터)의 1비트 양자화 버전 세트인 Bonsai를 출시했습니다. 이 모델들은 극단적인 양자화를 사용하여 특정 작업에 대한 사용 가능한 성능을 유지하면서 메모리 요구 사항을 극적으로 줄입니다.

테스트 성능 벤치마크

8GB VRAM의 RTX 4060에서 테스트한 결과:

초당 107 토큰 생성 속도
>1114 토큰/초 프롬프트 처리
Q4 양자화 모델 대비 상당히 낮은 RAM 사용량

비교를 위해, 동일한 하드웨어에서 동일한 프롬프트를 사용한 Qwen 3.5 4B Q4는 56 토큰/초를 달성했습니다.

실용적 의미

감소된 메모리 사용량으로 인해 8B 파라미터 모델을 8GB VRAM 시스템에서 실행할 수 있습니다. 더 작은 모델들은 메모리 절약 덕분에 더 긴 컨텍스트 윈도우와 함께 사용될 수 있습니다.

품질 평가

초기 테스트는 텍스트 요약에 집중했으며, 모델이 잘 수행했습니다. 테스터는 코딩이나 도구 사용 능력은 평가하지 않았다고 언급했습니다.

기술적 제한 사항

현재 구현에는 CPU 추론 문제가 있습니다. GPU가 없는 미니 PC에서 테스트했을 때:

llama.cpp 포크는 성공적으로 컴파일됨
모델은 로드되지만 프롬프트 처리 중 멈춤
분석 결과 CPU 구현이 존재하지 않는 것으로 보임 - 아마도 FP32로 역양자화하고 일반 추론을 시도하는데, 이는 CPU에서 매우 느릴 것임

기술적 잠재력

1비트 모델은 대역폭과 메모리 요구 사항뿐만 아니라 계산 요구 사항도 줄일 수 있습니다. 1비트 행렬의 행렬 곱셈은 XOR 연산을 사용할 수 있으며, 이는 부동 소수점 연산보다 훨씬 빠릅니다. XOR 연산 후 FP16으로 스케일링하더라도 상당한 계산 절약이 가능할 것이며, 이는 CPU 전용 추론 및 엣지 컴퓨팅 시나리오에 유익할 수 있습니다.

설정 세부 사항

테스터는 다음을 다운로드했습니다:

8B Bonsai 모델
PrismML의 llama.cpp 포크
CUDA가 설치된 Windows에서 테스트

📖 전체 소스 읽기: r/LocalLLaMA

PrismML의 Bonsai 1-bit Qwen 모델 테스트 결과: 8GB VRAM에서 초당 107 토큰 생성 성능

Bonsai 모델: PrismML의 1비트 Qwen 양자화

테스트 성능 벤치마크

실용적 의미

품질 평가

기술적 제한 사항

기술적 잠재력

설정 세부 사항

👀 See Also

개발자의 Claude AI 경험: 사고 파트너에서 인지 아웃소싱까지

UX 디자이너의 견해: 클로드 디자인은 경험 많은 디자이너를 대체할 수 없다

스타트업, AI 컴퓨팅에 인건비보다 더 많은 지출 보고

펜타곤, 클로드 AI 군사적 사용 허용을 위해 Anthropic에 72시간 부여