PrismML의 Bonsai 1-bit Qwen 모델 테스트 결과: 8GB VRAM에서 초당 107 토큰 생성 성능

Bonsai 모델: PrismML의 1비트 Qwen 양자화
PrismML은 Qwen3 모델(8B, 4B, 1.7B 파라미터)의 1비트 양자화 버전 세트인 Bonsai를 출시했습니다. 이 모델들은 극단적인 양자화를 사용하여 특정 작업에 대한 사용 가능한 성능을 유지하면서 메모리 요구 사항을 극적으로 줄입니다.
테스트 성능 벤치마크
8GB VRAM의 RTX 4060에서 테스트한 결과:
- 초당 107 토큰 생성 속도
- >1114 토큰/초 프롬프트 처리
- Q4 양자화 모델 대비 상당히 낮은 RAM 사용량
비교를 위해, 동일한 하드웨어에서 동일한 프롬프트를 사용한 Qwen 3.5 4B Q4는 56 토큰/초를 달성했습니다.
실용적 의미
감소된 메모리 사용량으로 인해 8B 파라미터 모델을 8GB VRAM 시스템에서 실행할 수 있습니다. 더 작은 모델들은 메모리 절약 덕분에 더 긴 컨텍스트 윈도우와 함께 사용될 수 있습니다.
품질 평가
초기 테스트는 텍스트 요약에 집중했으며, 모델이 잘 수행했습니다. 테스터는 코딩이나 도구 사용 능력은 평가하지 않았다고 언급했습니다.
기술적 제한 사항
현재 구현에는 CPU 추론 문제가 있습니다. GPU가 없는 미니 PC에서 테스트했을 때:
- llama.cpp 포크는 성공적으로 컴파일됨
- 모델은 로드되지만 프롬프트 처리 중 멈춤
- 분석 결과 CPU 구현이 존재하지 않는 것으로 보임 - 아마도 FP32로 역양자화하고 일반 추론을 시도하는데, 이는 CPU에서 매우 느릴 것임
기술적 잠재력
1비트 모델은 대역폭과 메모리 요구 사항뿐만 아니라 계산 요구 사항도 줄일 수 있습니다. 1비트 행렬의 행렬 곱셈은 XOR 연산을 사용할 수 있으며, 이는 부동 소수점 연산보다 훨씬 빠릅니다. XOR 연산 후 FP16으로 스케일링하더라도 상당한 계산 절약이 가능할 것이며, 이는 CPU 전용 추론 및 엣지 컴퓨팅 시나리오에 유익할 수 있습니다.
설정 세부 사항
테스터는 다음을 다운로드했습니다:
- 8B Bonsai 모델
- PrismML의 llama.cpp 포크
- CUDA가 설치된 Windows에서 테스트
📖 전체 소스 읽기: r/LocalLLaMA
👀 See Also

AI가 나를 멍청하게 만든다: 개발자의 기술 위축 고백
James Pain은 인공지능만을 사용해 코딩한 지 1~2년 후(손으로 직접 작성한 코드 없음) 코딩하는 법을 대부분 잊어버렸다고 고백한다. 그는 다시 직접 코딩하는 법을 스스로 가르치고 있으며, AI 사용이 많아지면 글쓰기와 코딩 능력이 퇴화할 수 있다고 경고한다.

llama.cpp의 Q8_0 양자화가 SYCL 재정렬 수정으로 인텔 Arc GPU에서 3.1배 속도 향상을 달성했습니다
llama.cpp의 SYCL 백엔드에 대한 수정으로 Intel Arc GPU에서의 Q8_0 양자화 성능이 이론적 메모리 대역폭의 21%에서 66%로 향상되었으며, Arc Pro B70에서 Qwen3.5-27B 모델로 이전 4.88 토큰/초 대비 15.24 토큰/초를 달성했습니다.

올버즈, 신발 사업에서 AI 인프라로 전환하며 주가 580% 급등
신발 브랜드 올버즈가 AI 컴퓨팅 인프라 기업인 NewBird AI로 전환하기 위해 5천만 달러 규모의 거래를 발표하면서 주가가 580% 상승했습니다. 이 회사는 GPU를 구매하고 AI를 위한 주문형 그래픽 칩과 클라우드 서비스를 제공할 계획입니다.

레딧 사용자가 젠 4에서 Qwen 3 30B Q4로 CPU 추론 시 18.8 tok/s를 보고합니다
r/LocalLLaMA의 한 사용자가 Qwen 3 30B Q4 모델을 CPU에서 테스트하여 Zen 4 프로세서와 DDR5 메모리로 초당 18.8 토큰을 달성했으며, 이는 초당 3-5 토큰이라는 기대치를 크게 뛰어넘는 성능입니다.