RTX 3090에서 Qwen 3.6 27B/35B 최적화: 플래그, 양자화 및 자동 라우팅

✍️ OpenClawRadar📅 게시일: May 5, 2026🔗 Source

RTX 3090(24GB VRAM), Ryzen 5700X, 64GB RAM, Windows 11에서 로컬로 Qwen 3.6 모델을 실행하는 개발자가 성능 및 신뢰성 문제를 겪고 있습니다. 사용자 정의 플래그로 llama-server를 사용하며 양자화 선택, 처리량, 자동 모델 라우팅에 대한 조언을 구하고 있습니다.

명령어 및 양자화

35B (UD Q4_K_M):

llama-server.exe -m "path\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" -ngl 99 -c 131072 -np 2 -fa on -ctk f16 -ctv f16 -b 2048 -ub 512 -t 8 --mlock -rea on --reasoning-budget 2048 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0

27B (UD Q4_K_XL):

llama-server.exe -m "path\Qwen3.6-27B-UD-Q4_K_XL.gguf" -ngl 99 -c 196608 -np 1 -fa on -ctk q8_0 -ctv q8_0 -b 2048 -ub 512 -t 8 --no-mmap -rea on --reasoning-budget -1 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0

보고된 문제

35B 너무 느림 – 간단한 반복 작업조차 사용하기 어려움.
27B 빠르지만 불안정 – 코드 출력이 깨짐; 간단한 작업에 20-30분 소요.
수동 모델 전환 – 서버를 종료하고, 새 명령어를 붙여넣고, 모델을 다시 로드해야 함.

구체적인 질문

플래그가 최적이 아닌가요? (예: 컨텍스트 크기, 배치 크기, 캐시 유형)
24GB VRAM에서 속도와 코딩 정확도의 균형이 가장 좋은 양자화/모델은?
요청별로 자동으로 모델을 전환하거나 여러 모델을 warm 상태로 유지하고 라우팅하는 방법은?

컨텍스트

사용자는 Raspberry Pi 5에서 스크래핑 및 자동화를 위한 Hermes 에이전트를, OpenCode/QwenCode로 로컬 코딩을 실행합니다. 수동 서버 재시작이 필요 없는 설정을 원합니다.

📖 전체 출처 읽기: r/LocalLLaMA

👀 See Also

Guides

클로드 코드 스킬 vs 커스텀 에이전트: 작업 일관성에 기반한 멘탈 모델

레딧 사용자가 Claude Code의 스킬과 커스텀 에이전트 간 차이를 명확히 설명합니다: 스킬은 매번 동일한 단계를 실행하는 반면, 커스텀 에이전트는 추론과 적응이 필요합니다. 이 게시물은 병렬 서브에이전트, 위임, 훅, 빌딩 블록에 대해서도 다룹니다.

Mar 24, 2026, 12:45 AM UTC

OpenClawRadar

Guides

지속적인 OpenClaw 에이전트 컨텍스트를 위한 3계층 메모리 아키텍처

한 개발자가 에이전트가 컨텍스트 없이 각 세션을 시작하는 것을 방지하기 위해 OpenClaw의 인프라 위에 3계층 메모리 시스템을 구축했습니다. 이 아키텍처에는 매 턴마다 주입되는 L1 작업공간 파일, L2 의미론적 메모리 검색, 필요 시 열리는 L3 참조 문서가 포함됩니다.

Mar 7, 2026, 11:45 PM UTC

OpenClawRadar

Guides

Windows 11 Home에서 Claude Cowork '작업 공간 시작 실패' 오류 해결하기

사용자가 Microsoft Store에서 Windows Subsystem for Linux(WSL2)를 설치하여 Claude Cowork의 Windows 11 Home 시작 오류를 해결했습니다. 이는 기본 VM 기술에 필요한 구성 요소입니다.

Feb 27, 2026, 03:45 PM UTC

OpenClawRadar

Guides

자체 호스팅 오픈클로 도커에서 '지원되지 않는 탐색' 및 브라우저 플러그인 오류 수정

Hostinger와 같은 VPS에서 Docker로 OpenClaw를 자체 호스팅할 때 발생하는 EACCES 권한 오류, Playwright 누락, Chromium 바이너리 문제를 단계별로 해결하는 방법입니다.

May 8, 2026, 02:15 PM UTC

OpenClawRadar