300달러 노트북으로 Qwen 3.5 35B에서 10.33 t/s 달성: 전체 최적화 분석

✍️ OpenClawRadar📅 게시일: June 14, 2026🔗 Source
300달러 노트북으로 Qwen 3.5 35B에서 10.33 t/s 달성: 전체 최적화 분석
Ad

Reddit 사용자가 300달러짜리 Lenovo Ideapad Slim 3i(12세대 i3-1215U, 8GB 온보드 + 32GB DDR4 확장)에서 Qwen 3.5 35B 추론을 10.33 t/s로 끌어올렸습니다. 설정은 Q4_K_S 양자화된 MoE 모델(활성 파라미터 약 3B)과 ik_llama.cpp 빌드 4509를 사용합니다.

하드웨어 및 모델

  • 노트북: Lenovo Ideapad Slim 3i 2023 (약 $300)
  • CPU: Intel i3-1215U (6코어, 2개 성능 코어 사용)
  • RAM: 8GB 온보드 + 32GB DDR4 SO-DIMM (Flex 모드)
  • OS: Linux Mint
  • 모델: Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf (35B MoE, 토큰당 3B 활성 파라미터)
  • 백엔드: ik_llama.cpp 커밋 40aae0b6, GCC 13.3.0으로 컴파일

적용된 최적화

  • BIOS: 배터리 → Extreme 성능 모드; 팬 조용히(끄기) 설정
  • OS 전원 프로필: 성능
  • 코어 고정: taskset -c 0,2로 성능 코어 0과 2에 스레드 고정
  • 양자화: Q4_K_S
  • 배치 크기: 64 (-ub 64)
  • 추측 디코딩: MTP 유형, 드래프트 최대 3
  • Flash attention, fmoe, rtr — 모두 기본 활성화
  • 벤치마크 전 새로 재시작
Ad

사용된 명령어

taskset -c 0,2 ./build/bin/llama-cli \
  -m "/home/default/LLM Models/Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf" \
  -p "User: Please explain the history of france \nAI:" \
  -n 1028 \
  --spec-type mtp \
  --draft-max 3 \
  -t 2 \
  -ub 64 \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --min-p 0.0 \
  --presence-penalty 1.5 \
  --repeat-penalty 1.0

결과

  • 프롬프트 평가: 22.49 t/s
  • 추론: 10.33 t/s (1028 토큰 기준)
  • 온도: 약 90°C, ik_llama 사용 시 와트 제한 불필요 (이전 llama.cpp에서는 17.5W 제한 필요)

Qwen 3.5 MoE가 빠른 이유

Qwen 3.5 35B MoE 아키텍처는 밀집 모델과 달리 토큰당 약 3B 파라미터만 활성화합니다. 비교를 위해, Gemma 4 26b(4B 활성)는 유사 설정에서 약 3 t/s만 나왔는데, 이는 Qwen 3.5의 MoE 라우팅과 희소 연산이 특히 CPU 친화적임을 시사합니다.

추가 개선 가능성

  • XMP 메모리 타이밍을 위한 커스텀 BIOS → +10% t/s
  • 고급 서멀 컴파운드 재도포
  • DDR4에서 DDR5 노트북 RAM으로 업그레이드 (재도포와 함께 → +20% t/s)

대상: 저가형 하드웨어에서 로컬 LLM을 실행하며 CPU 전용 추론으로 Qwen MoE 모델의 최대 성능을 끌어내고자 하는 개발자.

📖 전체 소스 읽기: r/LocalLLaMA

Ad

👀 See Also

cc-session-utils: Claude 코드 세션 및 비용 관리를 위한 TUI 대시보드
Tools

cc-session-utils: Claude 코드 세션 및 비용 관리를 위한 TUI 대시보드

한 개발자가 Claude Code 세션 파일을 관리하고 사용 비용을 추적하기 위한 터미널 UI 도구인 cc-session-utils를 구축했습니다. 이 도구는 모델별 비용 추적, 고아 세션 정리, 프로젝트 간 데이터 마이그레이션 기능을 제공하며, Python 3.11+가 필요하고 Textual로 제작되었습니다.

OpenClawRadar
js-notepad: Claude 코드를 위한 내장 MCP 서버가 있는 스크립트 가능한 메모장
Tools

js-notepad: Claude 코드를 위한 내장 MCP 서버가 있는 스크립트 가능한 메모장

js-notepad는 Claude Code의 도움으로 구축된 무료 오픈소스 스크립트 가능 노트패드 애플리케이션입니다. 내장된 MCP 서버를 통해 Claude Code가 페이지 읽기/쓰기, 스크립트 실행, 할 일 생성 및 결과 푸시를 위해 앱과 직접 상호작용할 수 있습니다.

OpenClawRadar
Memento v1.0: Claude Code용 지속적 메모리 MCP 서버, 17개의 도구 포함
Tools

Memento v1.0: Claude Code용 지속적 메모리 MCP 서버, 17개의 도구 포함

Memento v1.0는 Claude Code용 지속적 메모리 MCP 서버로, 17개의 도구, 하이브리드 검색, 모순 감지 및 시각적 메모리 그래프를 제공합니다. 클라우드 의존성 없이 로컬에서 실행되며 Claude Code, Cursor, Windsurf, OpenCode를 포함한 여러 IDE를 지원합니다.

OpenClawRadar
Mac Mini에서 OpenClaw와 LM Studio를 사용한 로컬 LLM 성능 벤치마크
Tools

Mac Mini에서 OpenClaw와 LM Studio를 사용한 로컬 LLM 성능 벤치마크

한 레딧 사용자가 32GB RAM을 탑재한 Mac Mini에서 Unsloth gpt-oss-20b-Q4_K_S.gguf 모델을 로컬에서 실행한 성능 수치를 공유했습니다. OpenClaw 2026.3.8과 LM Studio 0.4.6+1을 사용하여 초기 토큰까지 0.7초, 초당 34토큰의 속도를 달성했습니다.

OpenClawRadar