8GB VRAM + 32GB RAM에서 ~190k 컨텍스트로 Qwen3.6-35B-A3B 실행 – 설정 및 벤치마크

한 Reddit 사용자가 8GB VRAM(RTX 4060)과 32GB DDR5 RAM을 장착한 노트북에서 Qwen3.6-35B-A3B GGUF 모델을 약 190k 컨텍스트로 실행하기 위한 상세 설정을 게시했습니다. 기본으로 37-43 tok/s를 보고했으며, 약간의 조정으로 ~51 tok/s까지 올렸습니다.
하드웨어 및 모델
- GPU: RTX 4060 8GB VRAM
- RAM: 32GB DDR5 5600MHz
- OS: Linux (Windows보다 성능이 좋은 것으로 알려짐)
- 테스트된 모델(Q5 양자화):
mudler/Qwen3.6-35B-A3B-APEX-GGUF– 약 40 tok/s에서 37 tok/shesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF– 약 43 tok/s에서 37 tok/s
주요 구성
TurboQuant를 지원하는 llama.cpp 포크(turboquant_plus)를 사용하여 사용자는 다음 플래그로 llama-server를 실행합니다:
--model "" \
--host 0.0.0.0 \
--port 8085 \
--ctx-size 192640 \
--n-gpu-layers 430 \
--n-cpu-moe 35 \
--cache-type-k "turbo4" \
--cache-type-v "turbo4" \
--flash-attn on \
--batch-size 2048 \
--parallel 1 \
--no-mmap \
--mlock \
--ubatch-size 512 \
--threads 6 \
--cont-batching \
--timeout 300 \
--temp 0.2 \
--top-p 0.95 \
--min-p 0.05 \
--top-k 20 \
--metrics \
--chat-template-kwargs '{"preserve_thinking": true}'
속도를 ~51 tok/s로 높이려면 세 가지 플래그를 조정하세요: --ctx-size 192640, --n-gpu-layers 430, --n-cpu-moe 35 (안정성/메모리에 따라 약간 조정).
주의사항
- Q4 양자화는 긴 맥락 추론에서 Q5보다 눈에 띄게 성능이 떨어집니다.
--no-mmap+--mlock은 끊김 현상을 줄여줍니다.- TurboQuant KV 캐시는 높은 컨텍스트 크기에서 중요합니다.
- 높은 RAM 대역폭(DDR5)이 이러한 속도에 중요합니다.
- Linux가 이 작업에서 Windows보다 성능이 훨씬 뛰어납니다.
대상 사용자
특히 8-12GB VRAM과 빠른 시스템 RAM을 갖춘 소비자 하드웨어에서 매우 긴 컨텍스트(170k+ 토큰)로 로컬 LLM을 실행하는 개발자.
📖 원문 읽기: r/LocalLLaMA
👀 See Also

ChatGPT 기록을 OpenClaw 메모리 시스템으로 내보내기
레딧 사용자가 ai-chat-md-export 도구를 사용하여 ChatGPT 대화 기록을 내보내고 OpenClaw의 메모리 시스템으로 가져오는 과정을 공유하며, 이를 통해 로컬 AI 에이전트가 역사적 맥락에 접근할 수 있게 합니다.

클로드 AI 실행 에이전트를 위한 실용적인 프롬프트 구조
한 개발자가 API 호출, 데이터 추출, 다단계 워크플로우를 수행하는 Claude AI 에이전트의 환각 현상을 줄인 프롬프트 엔지니어링 기법을 공유합니다. 주요 전략으로는 프롬프트를 계약서처럼 작성하기, 토큰의 40%를 오류 처리에 할당하기, '대기'와 '중지' 조건을 분리하기 등이 있습니다.

30일간의 프리랜스 비즈니스를 위한 클로드: 효과적인 5가지 프롬프트
한 프리랜서가 30일 동안 매일 Claude를 테스트한 결과, 제안서 작성 시간을 45분에서 5분으로 줄이고, 이의 없이 요금을 30% 인상하며, 콜드 피치 응답률을 3배 높인 5가지 프롬프트를 공유합니다.

OpenClaw 응답 시간 개선 방법: 컨텍스트 비대화 줄이기
개발자가 OpenClaw에서 파일 구조 조정과 설정 변경을 통해 주입된 작업 공간 파일을 47,000자에서 16,000자로 줄이고, bootstrapMaxChars를 8000으로 설정하고 압축 안전장치를 추가하여 10분 응답 시간 문제를 해결했습니다.