Qwen3-30B-A3B vs Qwen3.5-35B-A3B 성능 비교 (RTX 5090)

성능 비교: Qwen3-30B-A3B vs Qwen3.5-35B-A3B

NVIDIA RTX 5090에서 Qwen3-30B-A3B와 새로 출시된 Qwen3.5-35B-A3B를 비교한 상세 벤치마크 결과, 속도와 컨텍스트 처리 사이의 균형이 드러났습니다. 두 모델 모두 30억 개의 활성 파라미터를 가진 동일한 Mixture of Experts 아키텍처를 사용하며, 3.5 버전은 총 파라미터를 50억 개 더 추가하고 비전 프로젝터를 포함합니다.

하드웨어 및 설정

GPU: NVIDIA RTX 5090 (32 GB VRAM, Blackwell)
서버: llama.cpp b8115 (Docker: ghcr.io/ggml-org/llama.cpp:server-cuda)
양자화: 두 모델 모두 Q4_K_M
KV 캐시: Q8_0 (-ctk q8_0 -ctv q8_0)
컨텍스트: 32,768 토큰 (-c 32768)
파라미터: -ngl 999 -np 4 --flash-attn on -t 12
모델 A: Qwen3-30B-A3B-Q4_K_M (디스크 17 GB)
모델 B: Qwen3.5-35B-A3B-Q4_K_M (디스크 21 GB)

두 모델 모두 타이밍 측정 전에 테스트 요청으로 워밍업했습니다. 서버 측 타이밍은 벽시계 측정이 아닌 API 응답에서 가져왔습니다.

원시 추론 속도 결과

직접 llama.cpp /v1/chat/completions 테스트 결과:

짧은 프롬프트 (8-9 토큰): 30B: 248.2 토큰/초, 3.5: 169.5 토큰/초
중간 프롬프트 (73-78 토큰): 30B: 236.1 토큰/초, 3.5: 163.5 토큰/초
긴 형식 (800 토큰): 30B: 232.6 토큰/초, 3.5: 116.3 토큰/초
코드 생성 (298-400 토큰): 30B: 233.9 토큰/초, 3.5: 161.6 토큰/초
추론 (200 토큰): 30B: 234.8 토큰/초, 3.5: 158.2 토큰/초

평균 생성 속도: 30B: 237.1 토큰/초, 3.5: 153.8 토큰/초 (30B가 35% 더 빠름)

프롬프트 처리 평균: 30B: 773.5 토큰/초, 3.5: 518.1 토큰/초

3.5 모델은 긴 출력(800 토큰)에서 흥미로운 성능 저하를 보이며, 116 토큰/초로 떨어지는 반면 짧은 출력에서는 약 160 토큰/초를 유지합니다. 프롬프트 처리는 3.5 모델에서 더 느린데, 이는 더 큰 어휘(248K vs 152K 토큰) 때문입니다.

메모리 사용량

VRAM 사용량: 30B는 유휴 상태에서 27.3 GB, 3.5는 29.0 GB를 사용합니다. 둘 다 RTX 5090에서 편안하게 작동합니다.

응답 품질 관찰

temperature=0.7에서 테스트한 결과 두 모델 모두 유능한 출력을 생성했습니다. 주요 관찰 사항:

창의적 글쓰기: 둘 다 견고하며, 3.5가 약간 더 분위기 있는 산문을 보임
하이쿠 생성: 둘 다 유효한 5-7-5 구조를 생성
코딩 작업: 둘 다 O(1) get/put 연산으로 LRU 캐시를 올바르게 구현

3.5 모델은 긴 컨텍스트를 훨씬 더 잘 처리하며 토큰 스케일링이 평탄한 반면, 30B 모델은 21% 성능 저하를 보입니다. 품질 차이는 미미하며 구조와 형식에서 3.5가 약간 우세합니다.

📖 전체 소스 읽기: r/LocalLLaMA

Qwen3-30B-A3B 대 Qwen3.5-35B-A3B 성능 비교 (RTX 5090 기준)

성능 비교: Qwen3-30B-A3B vs Qwen3.5-35B-A3B

하드웨어 및 설정

원시 추론 속도 결과

메모리 사용량

응답 품질 관찰

👀 See Also

스탠포드 보고서, AI 전문가와 일반 대중의 AI 영향력에 대한 견해 차이 보여줘

Claude-Code v2.1.45 개선 사항 및 수정 내역

클로드 코드 v2.1.37 출시

클로드 코드 v2.1.178, Tool(param:value) 권한 규칙 추가 및 서브에이전트·인증 문제 수정