300달러 노트북으로 Qwen 3.5 35B 10.33 t/s 달성

Reddit 사용자가 300달러짜리 Lenovo Ideapad Slim 3i(12세대 i3-1215U, 8GB 온보드 + 32GB DDR4 확장)에서 Qwen 3.5 35B 추론을 10.33 t/s로 끌어올렸습니다. 설정은 Q4_K_S 양자화된 MoE 모델(활성 파라미터 약 3B)과 ik_llama.cpp 빌드 4509를 사용합니다.

하드웨어 및 모델

노트북: Lenovo Ideapad Slim 3i 2023 (약 $300)
CPU: Intel i3-1215U (6코어, 2개 성능 코어 사용)
RAM: 8GB 온보드 + 32GB DDR4 SO-DIMM (Flex 모드)
OS: Linux Mint
모델: Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf (35B MoE, 토큰당 3B 활성 파라미터)
백엔드: ik_llama.cpp 커밋 40aae0b6, GCC 13.3.0으로 컴파일

적용된 최적화

BIOS: 배터리 → Extreme 성능 모드; 팬 조용히(끄기) 설정
OS 전원 프로필: 성능
코어 고정: taskset -c 0,2로 성능 코어 0과 2에 스레드 고정
양자화: Q4_K_S
배치 크기: 64 (-ub 64)
추측 디코딩: MTP 유형, 드래프트 최대 3
Flash attention, fmoe, rtr — 모두 기본 활성화
벤치마크 전 새로 재시작

사용된 명령어

taskset -c 0,2 ./build/bin/llama-cli \
  -m "/home/default/LLM Models/Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf" \
  -p "User: Please explain the history of france \nAI:" \
  -n 1028 \
  --spec-type mtp \
  --draft-max 3 \
  -t 2 \
  -ub 64 \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --min-p 0.0 \
  --presence-penalty 1.5 \
  --repeat-penalty 1.0

결과

프롬프트 평가: 22.49 t/s
추론: 10.33 t/s (1028 토큰 기준)
온도: 약 90°C, ik_llama 사용 시 와트 제한 불필요 (이전 llama.cpp에서는 17.5W 제한 필요)

Qwen 3.5 MoE가 빠른 이유

Qwen 3.5 35B MoE 아키텍처는 밀집 모델과 달리 토큰당 약 3B 파라미터만 활성화합니다. 비교를 위해, Gemma 4 26b(4B 활성)는 유사 설정에서 약 3 t/s만 나왔는데, 이는 Qwen 3.5의 MoE 라우팅과 희소 연산이 특히 CPU 친화적임을 시사합니다.