Qwen3-30B-A3B 대 Qwen3.5-35B-A3B 성능 비교 (RTX 5090 기준)

성능 비교: Qwen3-30B-A3B vs Qwen3.5-35B-A3B
NVIDIA RTX 5090에서 Qwen3-30B-A3B와 새로 출시된 Qwen3.5-35B-A3B를 비교한 상세 벤치마크 결과, 속도와 컨텍스트 처리 사이의 균형이 드러났습니다. 두 모델 모두 30억 개의 활성 파라미터를 가진 동일한 Mixture of Experts 아키텍처를 사용하며, 3.5 버전은 총 파라미터를 50억 개 더 추가하고 비전 프로젝터를 포함합니다.
하드웨어 및 설정
- GPU: NVIDIA RTX 5090 (32 GB VRAM, Blackwell)
- 서버: llama.cpp b8115 (Docker: ghcr.io/ggml-org/llama.cpp:server-cuda)
- 양자화: 두 모델 모두 Q4_K_M
- KV 캐시: Q8_0 (-ctk q8_0 -ctv q8_0)
- 컨텍스트: 32,768 토큰 (-c 32768)
- 파라미터: -ngl 999 -np 4 --flash-attn on -t 12
- 모델 A: Qwen3-30B-A3B-Q4_K_M (디스크 17 GB)
- 모델 B: Qwen3.5-35B-A3B-Q4_K_M (디스크 21 GB)
두 모델 모두 타이밍 측정 전에 테스트 요청으로 워밍업했습니다. 서버 측 타이밍은 벽시계 측정이 아닌 API 응답에서 가져왔습니다.
원시 추론 속도 결과
직접 llama.cpp /v1/chat/completions 테스트 결과:
- 짧은 프롬프트 (8-9 토큰): 30B: 248.2 토큰/초, 3.5: 169.5 토큰/초
- 중간 프롬프트 (73-78 토큰): 30B: 236.1 토큰/초, 3.5: 163.5 토큰/초
- 긴 형식 (800 토큰): 30B: 232.6 토큰/초, 3.5: 116.3 토큰/초
- 코드 생성 (298-400 토큰): 30B: 233.9 토큰/초, 3.5: 161.6 토큰/초
- 추론 (200 토큰): 30B: 234.8 토큰/초, 3.5: 158.2 토큰/초
평균 생성 속도: 30B: 237.1 토큰/초, 3.5: 153.8 토큰/초 (30B가 35% 더 빠름)
프롬프트 처리 평균: 30B: 773.5 토큰/초, 3.5: 518.1 토큰/초
3.5 모델은 긴 출력(800 토큰)에서 흥미로운 성능 저하를 보이며, 116 토큰/초로 떨어지는 반면 짧은 출력에서는 약 160 토큰/초를 유지합니다. 프롬프트 처리는 3.5 모델에서 더 느린데, 이는 더 큰 어휘(248K vs 152K 토큰) 때문입니다.
메모리 사용량
VRAM 사용량: 30B는 유휴 상태에서 27.3 GB, 3.5는 29.0 GB를 사용합니다. 둘 다 RTX 5090에서 편안하게 작동합니다.
응답 품질 관찰
temperature=0.7에서 테스트한 결과 두 모델 모두 유능한 출력을 생성했습니다. 주요 관찰 사항:
- 창의적 글쓰기: 둘 다 견고하며, 3.5가 약간 더 분위기 있는 산문을 보임
- 하이쿠 생성: 둘 다 유효한 5-7-5 구조를 생성
- 코딩 작업: 둘 다 O(1) get/put 연산으로 LRU 캐시를 올바르게 구현
3.5 모델은 긴 컨텍스트를 훨씬 더 잘 처리하며 토큰 스케일링이 평탄한 반면, 30B 모델은 21% 성능 저하를 보입니다. 품질 차이는 미미하며 구조와 형식에서 3.5가 약간 우세합니다.
📖 전체 소스 읽기: r/LocalLLaMA
👀 See Also

구글 AI 개요, 캐나다 피들러를 성범죄자로 허위 표시해 소송 제기
애슐리 매키식, 캐나다의 3회 주노상 수상 바이올리니스트가 AI 개요가 그를 유죄 판결을 받은 성범죄자로 허위 진술하여 콘서트가 취소되자 구글을 상대로 150만 달러 손해배상 소송을 제기했습니다.

Claude Opus 4.5와 Sonnet 4.5가 /model 선택에서 제거되었으며, 실행 플래그가 필요합니다.
Claude Opus 4.5와 Sonnet 4.5는 세션 중 /model 선택 메뉴에서 더 이상 사용할 수 없습니다. 사용자는 이제 이전 버전에 접근하기 위해 --model 플래그로 전체 모델 ID를 지정하여 세션을 시작해야 합니다.

Anthropic, Claude AI 에이전트 관련 코드 유출에 대응하다
Anthropic이 Claude AI 에이전트와 관련된 코드 유출을 막기 위해 노력하고 있으며, WSJ 보고서에 따르면 Hacker News에서 13점과 6개의 댓글을 받으며 논의되었습니다.

Gemma 4 출시: 로컬 AI 호스팅을 위한 4가지 모델 크기
Google은 엣지 디바이스, 노트북, GPU 등 다양한 하드웨어에 최적화된 4가지 모델 크기의 Gemma 4를 출시했습니다. 모든 모델은 텍스트와 비전 기능을 갖춘 멀티모달이며, 소형 모델은 실시간 오디오를 지원합니다.