AMD R9700에서 VS Code Copilot 대신 Qwen3.6 로컬 실행하는 방법

한 Reddit 사용자는 단일 AMD R9700 GPU에서 Vulkan을 사용하여 llama.cpp로 Qwen3.6-35B-A3B-UD-Q5_K_XL GGUF 모델을 로컬에서 실행하여 뛰어난 결과를 얻었다고 보고했습니다. 이 설정은 VS Code에서 GitHub Copilot의 대체재 역할을 했으며, 최소한의 개입으로 완전한 테스트 웹사이트와 Playwright 테스트 스위트를 생성했습니다.

llama.cpp 시작 명령어

/app/llama-server -m /models/Qwen3.6-35B-A3B-UD-Q5_K_XL/Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf \
  --ctx-size 262144 --threads 8 --threads-batch 8 \
  --gpu-layers 99 --parallel 1 --flash-attn on \
  --batch-size 2048 --ubatch-size 1024 \
  --cache-type-k q8_0 --cache-type-v q8_0 \
  --cache-ram 12000 --ctx-checkpoints 50 \
  --mmap --no-mmproj --kv-unified \
  --reasoning off --reasoning-budget 0 --jinja \
  --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 \
  --repeat-penalty 1.0 --presence-penalty 0.0

주요 매개변수: 256K 컨텍스트 창, 전체 오프로드를 위한 99개 GPU 레이어, 플래시 어텐션 활성화, 샘플링 구성은 Qwen3.6-35B-A3B Hugging Face 페이지의 "precise coding"에서 가져왔습니다.

VS Code 통합

사용자는 로컬 llama.cpp 서버를 가리키는 chatLanguageModels.json에 사용자 정의 채팅 모델을 구성했습니다:

{
  "name": "Sean Llama.cpp",
  "vendor": "customoai",
  "apiKey": "${input:chat.lm.secret.3c0c0f21}",
  "models": [
    {
      "id": "Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf",
      "name": "Qwen3.6-35B",
      "url": "https://llm.home.arpa/v1/chat/completions",
      "toolCalling": true,
      "vision": false,
      "maxInputTokens": 180000,
      "maxOutputTokens": 10000,
      "family": "Qwen3",
      "inputTokenCost": 0.0001,
      "outputTokenCost": 0.0001,
      "temperature": 0.6,
      "top_p": 0.95,
      "top_k": 20,
      "repeat_penalty": 1,
      "presence_penalty": 0,
      "frequency_penalty": 0,
      "systemMessage": "You are a precise coding assistant. Avoid repeating plans. Execute tasks directly. Do not restate intentions multiple times.",
      "timeout": 600000,
      "retry": { "enabled": true, "max_attempts": 2, "interval_ms": 1500 }
    }
  ]
}

모델은 도구 호출 요청에 올바르게 응답하여 Copilot 대체 역할을 수행할 수 있었습니다.

실제 테스트: 풀 스택 생성

사용자는 모델에게 (원래 ChatGPT에서 가져온) 상세한 프롬프트를 제공하여 "Bike Shop Service Tracker" — localStorage를 사용하는 로컬 우선 React + TypeScript 앱 —을 구축하도록 요청했습니다. 요구 사항에는 데이터 모델, 시드 데이터, 필터링, 정렬 및 양식 유효성 검사가 포함되었습니다. 모델은 첫 실행에서 완전히 작동하는 전체 웹사이트를 생성했습니다.

다음으로, 완전한 Playwright 테스트 스위트를 생성하도록 프롬프트했습니다. 하나의 테스트만 수동 수정이 필요했고, 나머지 스위트는 오류 없이 실행되었습니다. 사용자의 결론: "이제 (다음 큰 릴리스까지) 모델 조정과 테스트는 끝난 것 같고, 다시 코딩으로 돌아갈 수 있을 것 같습니다."