Qwen 3.5 35B가 llama.cpp 구성으로 8GB VRAM에서 실행 중입니다

제한된 VRAM에서 로컬 Qwen 3.5 35B 설정
r/LocalLLaMA의 한 개발자가 8GB VRAM 하드웨어에서 Qwen 3.5 35B 모델을 로컬로 실행하기 위한 설정을 상세히 설명했습니다. 이들은 클라우드 서비스의 한계에 부딪힌 후 Google AI Pro 플랜과 함께 Antigravity를 사용하던 것에서 로컬 LLM으로 전환했습니다.
하드웨어 및 모델 사양
이 설정은 i9-14900HX CPU(BIOS에서 E-코어 비활성화, 32GB DDR5 RAM)와 8GB VRAM의 RTX 4060m GPU를 탑재한 Lenovo Legion 노트북을 사용합니다. 특정 모델은 Qwen 3.5 35B A3B Heretic Opus (Q4_K_M GGUF)입니다.
성능 및 llama.cpp 구성
개발자는 이 설정으로 프롬프트 처리에 약 초당 700 토큰, 토큰 생성에 초당 42 토큰의 속도를 얻었다고 보고합니다. 테스트 후 제공한 llama.cpp 명령줄 인수는 다음과 같습니다:
-ngl 99 ^ --n-cpu-moe 40 ^ -c 192000 ^ -t 12 ^ -tb 16 ^ -b 4096 ^ --ubatch-size 2048 ^ --flash-attn on ^ --cache-type-k q8_0 ^ --cache-type-v q8_0 ^ --mlock
워크플로우 통합
에이전트 워크플로우를 위해, 이들은 VSCode의 Cline이 Antigravity에 가장 가까운 대안임을 발견했습니다. 이 설정 내에서 Plan 모드에는 kat-coder-pro를, Act 모드에는 qwen3.5를 사용합니다. 개발자는 이 로컬 구성이 Antigravity의 Google Gemini 3 Flash를 고수하는 것보다 더 나은지 피드백을 구하며, 프라이버시 문제보다 원활한 워크플로우를 우선시한다고 언급합니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Ory Lumen: Claude Code용 오픈 소스 로컬 시맨틱 검색 플러그인
Ory Lumen은 Claude Code 플러그인으로, Ollama를 사용하여 코드 임베딩 모델과 SQLite-vec을 활용한 의미론적 검색으로 코드베이스를 인덱싱하여 Claude Code의 대규모 코드베이스 성능 문제를 해결합니다. 이 도구는 무료이며 로컬 전용으로, 재현 가능한 결과를 위한 SWE 스타일 벤치마크 테스트 하네스를 포함합니다.

클로드 코드 훅 구현 프로젝트, 23개 훅 전체 커버
한 개발자가 Claude 코드의 모든 23가지 후크를 구현한 프로젝트를 만들었습니다. 이 프로젝트는 Claude 코드로만 구축되었으며, 각 후크의 사용 사례를 설명하는 동영상과 GitHub 저장소가 제공됩니다.

린 컨텍스트: 클로드 코드 플러그인이 장황한 문서를 에이전트 최적화 파일로 변환합니다
Lean Context라는 무료 오픈소스 Claude Code 플러그인은 프로젝트 문서를 스캔하여 AI 에이전트가 grep 검색을 통해 발견할 수 있는 내용을 제거하고, 필수적인 비명령어, 주의사항, 환경별 특이사항만 남깁니다. .NET 전자상거래 프로젝트 테스트에서는 8개 문서 총 1,263줄을 단 23줄로 줄였습니다.

무료 MCP로 클로드가 구글 서치 콘솔 데이터를 자동 분석하게 하세요
무료 MCP(Model Context Protocol) 서버를 사용하면 클로드가 접근 권한이 있는 모든 사이트의 Google Search Console 데이터를 직접 조회할 수 있습니다. 수동으로 CSV를 내보낼 필요 없이 검색어, 페이지, 클릭수, 노출수, CTR, 위치 등을 물어보세요.