Qwen 3.5 35B 8GB VRAM 실행: llama.cpp 설정 가이드

제한된 VRAM에서 로컬 Qwen 3.5 35B 설정

r/LocalLLaMA의 한 개발자가 8GB VRAM 하드웨어에서 Qwen 3.5 35B 모델을 로컬로 실행하기 위한 설정을 상세히 설명했습니다. 이들은 클라우드 서비스의 한계에 부딪힌 후 Google AI Pro 플랜과 함께 Antigravity를 사용하던 것에서 로컬 LLM으로 전환했습니다.

하드웨어 및 모델 사양

이 설정은 i9-14900HX CPU(BIOS에서 E-코어 비활성화, 32GB DDR5 RAM)와 8GB VRAM의 RTX 4060m GPU를 탑재한 Lenovo Legion 노트북을 사용합니다. 특정 모델은 Qwen 3.5 35B A3B Heretic Opus (Q4_K_M GGUF)입니다.

성능 및 llama.cpp 구성

개발자는 이 설정으로 프롬프트 처리에 약 초당 700 토큰, 토큰 생성에 초당 42 토큰의 속도를 얻었다고 보고합니다. 테스트 후 제공한 llama.cpp 명령줄 인수는 다음과 같습니다:

-ngl 99 ^
--n-cpu-moe 40 ^
-c 192000 ^
-t 12 ^
-tb 16 ^
-b 4096 ^
--ubatch-size 2048 ^
--flash-attn on ^
--cache-type-k q8_0 ^
--cache-type-v q8_0 ^
--mlock

워크플로우 통합

에이전트 워크플로우를 위해, 이들은 VSCode의 Cline이 Antigravity에 가장 가까운 대안임을 발견했습니다. 이 설정 내에서 Plan 모드에는 kat-coder-pro를, Act 모드에는 qwen3.5를 사용합니다. 개발자는 이 로컬 구성이 Antigravity의 Google Gemini 3 Flash를 고수하는 것보다 더 나은지 피드백을 구하며, 프라이버시 문제보다 원활한 워크플로우를 우선시한다고 언급합니다.

📖 Read the full source: r/LocalLLaMA