RTX 3090에서 Qwen 3.6 27B/35B 최적화: 플래그, 양자화 및 자동 라우팅

RTX 3090(24GB VRAM), Ryzen 5700X, 64GB RAM, Windows 11에서 로컬로 Qwen 3.6 모델을 실행하는 개발자가 성능 및 신뢰성 문제를 겪고 있습니다. 사용자 정의 플래그로 llama-server를 사용하며 양자화 선택, 처리량, 자동 모델 라우팅에 대한 조언을 구하고 있습니다.
명령어 및 양자화
35B (UD Q4_K_M):
llama-server.exe -m "path\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" -ngl 99 -c 131072 -np 2 -fa on -ctk f16 -ctv f16 -b 2048 -ub 512 -t 8 --mlock -rea on --reasoning-budget 2048 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.027B (UD Q4_K_XL):
llama-server.exe -m "path\Qwen3.6-27B-UD-Q4_K_XL.gguf" -ngl 99 -c 196608 -np 1 -fa on -ctk q8_0 -ctv q8_0 -b 2048 -ub 512 -t 8 --no-mmap -rea on --reasoning-budget -1 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0보고된 문제
- 35B 너무 느림 – 간단한 반복 작업조차 사용하기 어려움.
- 27B 빠르지만 불안정 – 코드 출력이 깨짐; 간단한 작업에 20-30분 소요.
- 수동 모델 전환 – 서버를 종료하고, 새 명령어를 붙여넣고, 모델을 다시 로드해야 함.
구체적인 질문
- 플래그가 최적이 아닌가요? (예: 컨텍스트 크기, 배치 크기, 캐시 유형)
- 24GB VRAM에서 속도와 코딩 정확도의 균형이 가장 좋은 양자화/모델은?
- 요청별로 자동으로 모델을 전환하거나 여러 모델을 warm 상태로 유지하고 라우팅하는 방법은?
컨텍스트
사용자는 Raspberry Pi 5에서 스크래핑 및 자동화를 위한 Hermes 에이전트를, OpenCode/QwenCode로 로컬 코딩을 실행합니다. 수동 서버 재시작이 필요 없는 설정을 원합니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

효율적인 자동화를 위한 게이트웨이 연결 끊김 처리
게이트웨이 연결이 끊겼을 때 AI 코딩 에이전트 운영을 유지하는 실용적인 솔루션을 살펴보세요. Grafana를 통한 모니터링, 자동 재연결 스크립트, 신뢰성을 위한 중복 경로 활용 등 팁을 포함합니다.

스킬 설치 없이 사용 가능한 5가지 핵심 OpenClaw 기능
OpenClaw의 기본 설치로 파일 작업, 쉘 명령어, 웹 가져오기, 예약 작업, 다단계 워크플로우를 추가 스킬 없이 처리할 수 있어 토큰 비용과 설정 복잡성을 줄입니다.

두 개의 $0 OpenClaw 설정, 무료 클라우드 모델 또는 로컬 Ollama 사용
레딧 게시물에서는 OpenClaw 에이전트를 무료로 실행하는 두 가지 방법을 설명합니다: OpenRouter, Gemini, Groq의 무료 티어를 이용해 속도 제한을 받는 방법, 또는 Ollama를 통해 로컬 모델을 실행하여 API 키 없이 데이터가 사용자의 기기를 떠나지 않게 하는 방법입니다.

안전한 OpenClaw 업그레이드를 위한 카나리 인스턴스 설정
레딧 사용자가 프로덕션 환경에 적용하기 전 OpenClaw 업그레이드를 테스트하기 위한 상세한 카나리 방법론을 공유합니다: 격리된 설정 루트, 별도 포트, 스모크 테스트 매트릭스, 구조화된 업그레이드 보고서 형식.