12GB VRAM 벤치마크: RTX 4070 Super에서 Qwen 3.6 및 Gemma 4 모델 실행

✍️ OpenClawRadar📅 게시일: April 30, 2026🔗 Source

한 Reddit 사용자가 12GB RTX 4070 Super(+10% OC)와 AMD 9800X3D CPU, 64GB DDR5-6000 RAM에서 여러 대규모 MoE 모델을 실행한 속도 벤치마크를 공개했습니다. 사용자는 VRAM 절약을 위해 디스플레이를 내장 GPU로 오프로드했으며, 그렇지 않으면 약 10%의 성능 저하가 있다고 언급했습니다. 설정은 CUDA 13.1과 최신 llama.cpp를 사용하며, 하드웨어 구성은 다음과 같습니다:

n-gpu-layers = 999
threads = 8
threads-batch = 16
batch-size = 4096
ubatch-size = 4096
ctx-size = 65536
flash-attn = true

벤치마크 결과

사용자는 VS Code의 Cline 및 KiloCode와 함께 Unsloth GGUF 양자화를 통해 네 가지 모델을 테스트했습니다(도구 호출 문제 없음). 모든 측정값은 초당 토큰 수(tgs)와 초당 처리량(pps)입니다.

Qwen3.6-35B-A3B-GGUF Q6_K_XL: 40 tgs, 2100 pps
Qwen3.6-27B-IQ3_XXS: 16 tgs, 1000 pps
Gemma 4 26B-A4B-it-UD-Q8: 26 tgs, 2150 pps
Gemma-4-31B-it-IQ3_XXS: 13-16 tgs, 650 pps

주목할 만한 설정 세부사항

사용자는 각 모델의 개별 설정과 특정 튜닝을 공유했습니다. 주요 내용:

Qwen3.6-35B-A3B: n-cpu-moe = 35(35개 MoE 전문가를 CPU로 오프로드), cache-type-k = q8_0, cache-type-v = q8_0, swa-full = true, cache-reuse = 512, 컨텍스트 크기 131072, 추론 활성화 및 예산 8096.
Gemma 4 26B: n-cpu-moe = 27, 컨텍스트 102400, fit = on 및 fit-target = 256, fit-ctx = 32768.
Gemma 4 31B: 추론 디코딩 사용(spec-type = ngram-mod), n-gpu-layers = 58(부분 GPU 오프로드), cache-type-k = q4_0, no-kv-offload = true.
모든 모델: flash-attn = true, no-mmproj-offload = true.

사용자가 웹 개발에 선호하는 모델은 Qwen3.6-35B-A3B이며, VS Code 확장에서 도구 호출 문제 없이 품질이 뛰어나다고 평가했습니다.

📖 전체 출처 읽기: r/LocalLLaMA

👀 See Also

Guides

일반적인 OpenClaw 설치 오류 및 해결 방법

레딧 게시물이 PATH 구성, 권한 오류, Node.js 버전 요구사항, TTY 문제, 플러그인 상태 문제 등 OpenClaw 설치 시 발생하는 여러 일반적인 문제에 대한 해결책을 정리합니다.

Mar 1, 2026, 11:45 PM UTC

OpenClawRadar

Guides

MacBook Pro에서 로컬 Homebrew와 NVM을 사용한 OpenClaw 설치

한 사용자가 비관리자 계정으로 MacBook Pro에 OpenClaw를 성공적으로 설치했습니다. 로컬 Homebrew, NVM v0.40.4, pyenv를 통한 Python 3.14.3, Node 24, 그리고 oMLX를 통한 Qwen3.5-122B-A10B-MLX-vision-4.7-bit LLM을 사용했습니다.

Apr 15, 2026, 06:45 PM UTC

OpenClawRadar

Guides

클로드 AI 프로젝트에 시간 추적 구현하기

Claude AI를 사용하는 방법에는 작업 세션을 추적하고 휴식 알림을 보내기 위해 응답에 타임스탬프를 찍는 것이 포함됩니다.

Feb 14, 2026, 05:45 AM UTC

OpenClawRadar

Guides

VPS vs 전용 서버: OpenClaw를 어디서 실행할까?

없음

Feb 7, 2026, 03:58 PM UTC

r/clawdbot community