AMD R9700에서 VS Code Copilot과 Qwen3.6-35B-A3B-UD-Q5_K_XL 로컬 실행

✍️ OpenClawRadar📅 게시일: May 7, 2026🔗 Source
AMD R9700에서 VS Code Copilot과 Qwen3.6-35B-A3B-UD-Q5_K_XL 로컬 실행
Ad

한 Reddit 사용자는 단일 AMD R9700 GPU에서 Vulkan을 사용하여 llama.cppQwen3.6-35B-A3B-UD-Q5_K_XL GGUF 모델을 로컬에서 실행하여 뛰어난 결과를 얻었다고 보고했습니다. 이 설정은 VS Code에서 GitHub Copilot의 대체재 역할을 했으며, 최소한의 개입으로 완전한 테스트 웹사이트와 Playwright 테스트 스위트를 생성했습니다.

llama.cpp 시작 명령어

/app/llama-server -m /models/Qwen3.6-35B-A3B-UD-Q5_K_XL/Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf \
  --ctx-size 262144 --threads 8 --threads-batch 8 \
  --gpu-layers 99 --parallel 1 --flash-attn on \
  --batch-size 2048 --ubatch-size 1024 \
  --cache-type-k q8_0 --cache-type-v q8_0 \
  --cache-ram 12000 --ctx-checkpoints 50 \
  --mmap --no-mmproj --kv-unified \
  --reasoning off --reasoning-budget 0 --jinja \
  --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 \
  --repeat-penalty 1.0 --presence-penalty 0.0

주요 매개변수: 256K 컨텍스트 창, 전체 오프로드를 위한 99개 GPU 레이어, 플래시 어텐션 활성화, 샘플링 구성은 Qwen3.6-35B-A3B Hugging Face 페이지의 "precise coding"에서 가져왔습니다.

Ad

VS Code 통합

사용자는 로컬 llama.cpp 서버를 가리키는 chatLanguageModels.json에 사용자 정의 채팅 모델을 구성했습니다:

{
  "name": "Sean Llama.cpp",
  "vendor": "customoai",
  "apiKey": "${input:chat.lm.secret.3c0c0f21}",
  "models": [
    {
      "id": "Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf",
      "name": "Qwen3.6-35B",
      "url": "https://llm.home.arpa/v1/chat/completions",
      "toolCalling": true,
      "vision": false,
      "maxInputTokens": 180000,
      "maxOutputTokens": 10000,
      "family": "Qwen3",
      "inputTokenCost": 0.0001,
      "outputTokenCost": 0.0001,
      "temperature": 0.6,
      "top_p": 0.95,
      "top_k": 20,
      "repeat_penalty": 1,
      "presence_penalty": 0,
      "frequency_penalty": 0,
      "systemMessage": "You are a precise coding assistant. Avoid repeating plans. Execute tasks directly. Do not restate intentions multiple times.",
      "timeout": 600000,
      "retry": { "enabled": true, "max_attempts": 2, "interval_ms": 1500 }
    }
  ]
}

모델은 도구 호출 요청에 올바르게 응답하여 Copilot 대체 역할을 수행할 수 있었습니다.

실제 테스트: 풀 스택 생성

사용자는 모델에게 (원래 ChatGPT에서 가져온) 상세한 프롬프트를 제공하여 "Bike Shop Service Tracker" — localStorage를 사용하는 로컬 우선 React + TypeScript 앱 —을 구축하도록 요청했습니다. 요구 사항에는 데이터 모델, 시드 데이터, 필터링, 정렬 및 양식 유효성 검사가 포함되었습니다. 모델은 첫 실행에서 완전히 작동하는 전체 웹사이트를 생성했습니다.

다음으로, 완전한 Playwright 테스트 스위트를 생성하도록 프롬프트했습니다. 하나의 테스트만 수동 수정이 필요했고, 나머지 스위트는 오류 없이 실행되었습니다. 사용자의 결론: "이제 (다음 큰 릴리스까지) 모델 조정과 테스트는 끝난 것 같고, 다시 코딩으로 돌아갈 수 있을 것 같습니다."

대상 사용자

코딩 지원을 위해 로컬 LLM을 실행하는 개발자, 특히 AMD GPU(Vulkan)를 사용하여 비슷한 품질의 Copilot 대안을 원하는 분들.

📖 전체 출처 읽기: r/LocalLLaMA

Ad

👀 See Also

사용자 경험: 로컬 LLM에서 OpenClaw에서 Hermes 에이전트로 전환하기
Tools

사용자 경험: 로컬 LLM에서 OpenClaw에서 Hermes 에이전트로 전환하기

한 개발자가 RX 9070 XT GPU(16GB VRAM)에서 Qwen3.5-9B 모델을 사용해 OpenClaw에서 Hermes Agent로 전환한 경험을 공유했습니다. Hermes는 복잡한 작업을 OpenClaw의 50단계 이상 대비 5번의 올바른 도구 호출로 완료했으며, 2분 30초 더 빠르게 실행하면서 RAG, 도구 호출, 지속적 메모리 기능을 유지했습니다.

OpenClawRadar
🦀
Tools

수술적 GitHub 추출: 전체 저장소가 아닌 하나의 함수를 가져오는 클로드 기술

surgical-github-extraction이라는 새로운 오픈 소스 Claude Skill은 함수나 패턴 하나만 필요할 때 Claude Code가 전체 저장소를 클론하는 것을 방지합니다. README를 읽고, 1~3개의 원시 소스 파일을 가져온 후, 출처 주석과 함께 가장 작은 유용한 단위를 추출합니다.

OpenClawRadar
클로드 코드로 프로그래밍 언어 만들기: 커틀릿 실험
Tools

클로드 코드로 프로그래밍 언어 만들기: 커틀릿 실험

안쿠르 세티는 클로드 코드를 사용하여 4주 동안 '컷릿'이라는 완전한 프로그래밍 언어를 구축했으며, AI가 모든 코드 라인을 생성하는 동안 그는 가드레일과 테스트에 집중했습니다. 이 언어는 동적 타이핑, 벡터화 연산, REPL을 특징으로 하며 macOS와 Linux에서 실행됩니다.

OpenClawRadar
Claude Code로 구축한 로컬 음성-텍스트 macOS 앱: Vext 사례 연구
Tools

Claude Code로 구축한 로컬 음성-텍스트 macOS 앱: Vext 사례 연구

한 개발자가 3개월 동안 Apple Neural Engine에서 Whisper를 사용하는 macOS 음성-텍스트 앱 Vext를 만들었습니다. Claude Code가 Rust/Swift FFI, Core ML 최적화 및 단축키 아키텍처를 도왔습니다. 이 앱은 완전히 오프라인에서 실행되며 60초 오디오를 약 400ms에 변환합니다.

OpenClawRadar