AMD R9700에서 VS Code Copilot과 Qwen3.6-35B-A3B-UD-Q5_K_XL 로컬 실행

한 Reddit 사용자는 단일 AMD R9700 GPU에서 Vulkan을 사용하여 llama.cpp로 Qwen3.6-35B-A3B-UD-Q5_K_XL GGUF 모델을 로컬에서 실행하여 뛰어난 결과를 얻었다고 보고했습니다. 이 설정은 VS Code에서 GitHub Copilot의 대체재 역할을 했으며, 최소한의 개입으로 완전한 테스트 웹사이트와 Playwright 테스트 스위트를 생성했습니다.
llama.cpp 시작 명령어
/app/llama-server -m /models/Qwen3.6-35B-A3B-UD-Q5_K_XL/Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf \
--ctx-size 262144 --threads 8 --threads-batch 8 \
--gpu-layers 99 --parallel 1 --flash-attn on \
--batch-size 2048 --ubatch-size 1024 \
--cache-type-k q8_0 --cache-type-v q8_0 \
--cache-ram 12000 --ctx-checkpoints 50 \
--mmap --no-mmproj --kv-unified \
--reasoning off --reasoning-budget 0 --jinja \
--temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 \
--repeat-penalty 1.0 --presence-penalty 0.0
주요 매개변수: 256K 컨텍스트 창, 전체 오프로드를 위한 99개 GPU 레이어, 플래시 어텐션 활성화, 샘플링 구성은 Qwen3.6-35B-A3B Hugging Face 페이지의 "precise coding"에서 가져왔습니다.
VS Code 통합
사용자는 로컬 llama.cpp 서버를 가리키는 chatLanguageModels.json에 사용자 정의 채팅 모델을 구성했습니다:
{
"name": "Sean Llama.cpp",
"vendor": "customoai",
"apiKey": "${input:chat.lm.secret.3c0c0f21}",
"models": [
{
"id": "Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf",
"name": "Qwen3.6-35B",
"url": "https://llm.home.arpa/v1/chat/completions",
"toolCalling": true,
"vision": false,
"maxInputTokens": 180000,
"maxOutputTokens": 10000,
"family": "Qwen3",
"inputTokenCost": 0.0001,
"outputTokenCost": 0.0001,
"temperature": 0.6,
"top_p": 0.95,
"top_k": 20,
"repeat_penalty": 1,
"presence_penalty": 0,
"frequency_penalty": 0,
"systemMessage": "You are a precise coding assistant. Avoid repeating plans. Execute tasks directly. Do not restate intentions multiple times.",
"timeout": 600000,
"retry": { "enabled": true, "max_attempts": 2, "interval_ms": 1500 }
}
]
}
모델은 도구 호출 요청에 올바르게 응답하여 Copilot 대체 역할을 수행할 수 있었습니다.
실제 테스트: 풀 스택 생성
사용자는 모델에게 (원래 ChatGPT에서 가져온) 상세한 프롬프트를 제공하여 "Bike Shop Service Tracker" — localStorage를 사용하는 로컬 우선 React + TypeScript 앱 —을 구축하도록 요청했습니다. 요구 사항에는 데이터 모델, 시드 데이터, 필터링, 정렬 및 양식 유효성 검사가 포함되었습니다. 모델은 첫 실행에서 완전히 작동하는 전체 웹사이트를 생성했습니다.
다음으로, 완전한 Playwright 테스트 스위트를 생성하도록 프롬프트했습니다. 하나의 테스트만 수동 수정이 필요했고, 나머지 스위트는 오류 없이 실행되었습니다. 사용자의 결론: "이제 (다음 큰 릴리스까지) 모델 조정과 테스트는 끝난 것 같고, 다시 코딩으로 돌아갈 수 있을 것 같습니다."
대상 사용자
코딩 지원을 위해 로컬 LLM을 실행하는 개발자, 특히 AMD GPU(Vulkan)를 사용하여 비슷한 품질의 Copilot 대안을 원하는 분들.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

사용자 경험: 로컬 LLM에서 OpenClaw에서 Hermes 에이전트로 전환하기
한 개발자가 RX 9070 XT GPU(16GB VRAM)에서 Qwen3.5-9B 모델을 사용해 OpenClaw에서 Hermes Agent로 전환한 경험을 공유했습니다. Hermes는 복잡한 작업을 OpenClaw의 50단계 이상 대비 5번의 올바른 도구 호출로 완료했으며, 2분 30초 더 빠르게 실행하면서 RAG, 도구 호출, 지속적 메모리 기능을 유지했습니다.
수술적 GitHub 추출: 전체 저장소가 아닌 하나의 함수를 가져오는 클로드 기술
surgical-github-extraction이라는 새로운 오픈 소스 Claude Skill은 함수나 패턴 하나만 필요할 때 Claude Code가 전체 저장소를 클론하는 것을 방지합니다. README를 읽고, 1~3개의 원시 소스 파일을 가져온 후, 출처 주석과 함께 가장 작은 유용한 단위를 추출합니다.

클로드 코드로 프로그래밍 언어 만들기: 커틀릿 실험
안쿠르 세티는 클로드 코드를 사용하여 4주 동안 '컷릿'이라는 완전한 프로그래밍 언어를 구축했으며, AI가 모든 코드 라인을 생성하는 동안 그는 가드레일과 테스트에 집중했습니다. 이 언어는 동적 타이핑, 벡터화 연산, REPL을 특징으로 하며 macOS와 Linux에서 실행됩니다.

Claude Code로 구축한 로컬 음성-텍스트 macOS 앱: Vext 사례 연구
한 개발자가 3개월 동안 Apple Neural Engine에서 Whisper를 사용하는 macOS 음성-텍스트 앱 Vext를 만들었습니다. Claude Code가 Rust/Swift FFI, Core ML 최적화 및 단축키 아키텍처를 도왔습니다. 이 앱은 완전히 오프라인에서 실행되며 60초 오디오를 약 400ms에 변환합니다.