300달러 노트북으로 Qwen 3.5 35B에서 10.33 t/s 달성: 전체 최적화 분석

Reddit 사용자가 300달러짜리 Lenovo Ideapad Slim 3i(12세대 i3-1215U, 8GB 온보드 + 32GB DDR4 확장)에서 Qwen 3.5 35B 추론을 10.33 t/s로 끌어올렸습니다. 설정은 Q4_K_S 양자화된 MoE 모델(활성 파라미터 약 3B)과 ik_llama.cpp 빌드 4509를 사용합니다.
하드웨어 및 모델
- 노트북: Lenovo Ideapad Slim 3i 2023 (약 $300)
- CPU: Intel i3-1215U (6코어, 2개 성능 코어 사용)
- RAM: 8GB 온보드 + 32GB DDR4 SO-DIMM (Flex 모드)
- OS: Linux Mint
- 모델:
Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf(35B MoE, 토큰당 3B 활성 파라미터) - 백엔드: ik_llama.cpp 커밋 40aae0b6, GCC 13.3.0으로 컴파일
적용된 최적화
- BIOS: 배터리 → Extreme 성능 모드; 팬 조용히(끄기) 설정
- OS 전원 프로필: 성능
- 코어 고정:
taskset -c 0,2로 성능 코어 0과 2에 스레드 고정 - 양자화: Q4_K_S
- 배치 크기: 64 (
-ub 64) - 추측 디코딩: MTP 유형, 드래프트 최대 3
- Flash attention, fmoe, rtr — 모두 기본 활성화
- 벤치마크 전 새로 재시작
사용된 명령어
taskset -c 0,2 ./build/bin/llama-cli \
-m "/home/default/LLM Models/Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf" \
-p "User: Please explain the history of france \nAI:" \
-n 1028 \
--spec-type mtp \
--draft-max 3 \
-t 2 \
-ub 64 \
--temp 1.0 \
--top-p 0.95 \
--top-k 20 \
--min-p 0.0 \
--presence-penalty 1.5 \
--repeat-penalty 1.0
결과
- 프롬프트 평가: 22.49 t/s
- 추론: 10.33 t/s (1028 토큰 기준)
- 온도: 약 90°C, ik_llama 사용 시 와트 제한 불필요 (이전 llama.cpp에서는 17.5W 제한 필요)
Qwen 3.5 MoE가 빠른 이유
Qwen 3.5 35B MoE 아키텍처는 밀집 모델과 달리 토큰당 약 3B 파라미터만 활성화합니다. 비교를 위해, Gemma 4 26b(4B 활성)는 유사 설정에서 약 3 t/s만 나왔는데, 이는 Qwen 3.5의 MoE 라우팅과 희소 연산이 특히 CPU 친화적임을 시사합니다.
추가 개선 가능성
- XMP 메모리 타이밍을 위한 커스텀 BIOS → +10% t/s
- 고급 서멀 컴파운드 재도포
- DDR4에서 DDR5 노트북 RAM으로 업그레이드 (재도포와 함께 → +20% t/s)
대상: 저가형 하드웨어에서 로컬 LLM을 실행하며 CPU 전용 추론으로 Qwen MoE 모델의 최대 성능을 끌어내고자 하는 개발자.
📖 전체 소스 읽기: r/LocalLLaMA
👀 See Also

cc-session-utils: Claude 코드 세션 및 비용 관리를 위한 TUI 대시보드
한 개발자가 Claude Code 세션 파일을 관리하고 사용 비용을 추적하기 위한 터미널 UI 도구인 cc-session-utils를 구축했습니다. 이 도구는 모델별 비용 추적, 고아 세션 정리, 프로젝트 간 데이터 마이그레이션 기능을 제공하며, Python 3.11+가 필요하고 Textual로 제작되었습니다.

js-notepad: Claude 코드를 위한 내장 MCP 서버가 있는 스크립트 가능한 메모장
js-notepad는 Claude Code의 도움으로 구축된 무료 오픈소스 스크립트 가능 노트패드 애플리케이션입니다. 내장된 MCP 서버를 통해 Claude Code가 페이지 읽기/쓰기, 스크립트 실행, 할 일 생성 및 결과 푸시를 위해 앱과 직접 상호작용할 수 있습니다.

Memento v1.0: Claude Code용 지속적 메모리 MCP 서버, 17개의 도구 포함
Memento v1.0는 Claude Code용 지속적 메모리 MCP 서버로, 17개의 도구, 하이브리드 검색, 모순 감지 및 시각적 메모리 그래프를 제공합니다. 클라우드 의존성 없이 로컬에서 실행되며 Claude Code, Cursor, Windsurf, OpenCode를 포함한 여러 IDE를 지원합니다.

Mac Mini에서 OpenClaw와 LM Studio를 사용한 로컬 LLM 성능 벤치마크
한 레딧 사용자가 32GB RAM을 탑재한 Mac Mini에서 Unsloth gpt-oss-20b-Q4_K_S.gguf 모델을 로컬에서 실행한 성능 수치를 공유했습니다. OpenClaw 2026.3.8과 LM Studio 0.4.6+1을 사용하여 초기 토큰까지 0.7초, 초당 34토큰의 속도를 달성했습니다.