12GB VRAM 벤치마크: RTX 4070 Super에서 Qwen 3.6 및 Gemma 4 모델 실행

한 Reddit 사용자가 12GB RTX 4070 Super(+10% OC)와 AMD 9800X3D CPU, 64GB DDR5-6000 RAM에서 여러 대규모 MoE 모델을 실행한 속도 벤치마크를 공개했습니다. 사용자는 VRAM 절약을 위해 디스플레이를 내장 GPU로 오프로드했으며, 그렇지 않으면 약 10%의 성능 저하가 있다고 언급했습니다. 설정은 CUDA 13.1과 최신 llama.cpp를 사용하며, 하드웨어 구성은 다음과 같습니다:
n-gpu-layers = 999
threads = 8
threads-batch = 16
batch-size = 4096
ubatch-size = 4096
ctx-size = 65536
flash-attn = true
벤치마크 결과
사용자는 VS Code의 Cline 및 KiloCode와 함께 Unsloth GGUF 양자화를 통해 네 가지 모델을 테스트했습니다(도구 호출 문제 없음). 모든 측정값은 초당 토큰 수(tgs)와 초당 처리량(pps)입니다.
- Qwen3.6-35B-A3B-GGUF Q6_K_XL: 40 tgs, 2100 pps
- Qwen3.6-27B-IQ3_XXS: 16 tgs, 1000 pps
- Gemma 4 26B-A4B-it-UD-Q8: 26 tgs, 2150 pps
- Gemma-4-31B-it-IQ3_XXS: 13-16 tgs, 650 pps
주목할 만한 설정 세부사항
사용자는 각 모델의 개별 설정과 특정 튜닝을 공유했습니다. 주요 내용:
- Qwen3.6-35B-A3B:
n-cpu-moe = 35(35개 MoE 전문가를 CPU로 오프로드),cache-type-k = q8_0,cache-type-v = q8_0,swa-full = true,cache-reuse = 512, 컨텍스트 크기 131072, 추론 활성화 및 예산 8096. - Gemma 4 26B:
n-cpu-moe = 27, 컨텍스트 102400,fit = on및fit-target = 256,fit-ctx = 32768. - Gemma 4 31B: 추론 디코딩 사용(
spec-type = ngram-mod),n-gpu-layers = 58(부분 GPU 오프로드),cache-type-k = q4_0,no-kv-offload = true. - 모든 모델:
flash-attn = true,no-mmproj-offload = true.
사용자가 웹 개발에 선호하는 모델은 Qwen3.6-35B-A3B이며, VS Code 확장에서 도구 호출 문제 없이 품질이 뛰어나다고 평가했습니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

로컬 Claude 코드 설정: Qwen3.5 27B를 llama.cpp로 실행하기
한 개발자가 llama.cpp를 사용하여 Qwen3.5 27B로 Claude Code를 로컬에서 실행하기 위한 구성 환경 변수, 서버 매개변수 및 7가지 코딩 작업에 대한 성능 벤치마크를 공유합니다.

예산 내에서 OpenClaw, ClawdBot, MoltBot 실행하기
OpenClaw, ClawdBot, MoltBot를 저렴하게 운영하는 방법을 알아보세요. r/clawdbot 커뮤니티에서 논의된 예산 관리 팁과 무료 대안을 탐색해 보세요.

OpenClaw 2026.3.7은 Kimi 도구 호출을 중단시킵니다. 2026.3.2 버전으로 다운그레이드하면 회귀 문제가 해결됩니다.
OpenClaw 버전 2026.3.7에는 Kimi API 제공자가 도구를 실행하는 대신 원시 <function_calls> XML을 출력하는 회귀 문제가 있습니다. 해결 방법은 버전 2026.3.2로 다운그레이드하고 호환 가능한 설정 파일을 복원하는 것입니다.

RTX 5090에서 AutoResearch 최적화: 실패한 점과 성공한 점
개발자가 RTX 5090/Blackwell 설정에서 AutoResearch를 실행하기 위한 구체적인 구성 세부 정보를 공유합니다. 여기에는 기능적으로 보이지만 성능이 저조했던 실패한 접근 방식과 TOTAL_BATCH_SIZE=2**17 및 TIME_BUDGET=1200으로 안정적인 결과를 달성한 작동 구성이 포함됩니다.