Qwen3.5 벤치마크: Apple Silicon vs AMD GPU ROCm & Vulkan 성능 비교

하드웨어 및 소프트웨어 설정

벤치마크는 세 가지 시스템을 비교했습니다: Apple M5 Max(48GB 통합 메모리)가 탑재된 MacBook Pro, Apple M1 Max(64GB 통합 메모리)가 탑재된 Mac Studio, 그리고 Intel Core Ultra 7 265K 프로세서와 세 가지 AMD GPU(Radeon Pro W7900(48GB, RDNA 3), Radeon AI PRO R9700(32GB, RDNA 4), Radeon Pro W6800(32GB, RDNA 2))가 장착된 Fedora 43 GPU 서버입니다. 메인보드는 x8/x8/x4 전기적 연결을 제공했으며, W6800은 DMI 링크로 인해 병목 현상이 발생하는 칩셋 연결 x4 슬롯에 장착되었습니다.

추론 엔진 및 모델

Apple 시스템은 mlx-lm(버전 0.31.1 및 0.31.0)을 사용했습니다. Fedora 서버는 llama.cpp를 HIP/ROCm 빌드(b5065)와 AMDVLK Vulkan 빌드(b5065) 모두로 실행했습니다. ROCm 버전은 7.2, AMDVLK 버전은 2025.Q2.1이었습니다. 모든 Fedora 실행은 단일 GPU를 사용했으며, 122B 모델은 W7900 + R9700을 --split-mode layer로 사용한 경우를 제외했습니다.

테스트된 모델은 Qwen3.5-35B-A3B MoE(3B 활성 매개변수, mlx-community 4비트 또는 unsloth Q4_K_M), Qwen3.5-27B dense(27B 매개변수, mlx-community 4비트 또는 unsloth Q4_K_M), 그리고 Qwen3.5-122B-A10B MoE(10B 활성 매개변수, unsloth Q3_K_XL)였습니다.

벤치마크 방법론

벤치마크는 약물감시 데이터 분석 사용 사례를 반영했습니다: 추출 스크립트 작성, 임상 데이터에 대한 추론, 규제 서사 생성, 임상 텍스트에서의 구조화된 데이터 추출. 프롬프트는 도메인 특화적이었으며, 일반적인 LLM 벤치마크가 아니었습니다.

표준 벤치마크는 8K 컨텍스트와 7개의 프롬프트를 사용했습니다: 2개의 프롬프트 처리 테스트(짧은 ~27 토큰 및 긴 ~2.9K 토큰 입력, 최소 출력으로 프리필 속도 분리)와 5개의 생성 작업(짧은 코딩, 중간 코딩, 수학 추론, 규제 안전 서사 작성, 구조화된 이상반응 추출). 단일 사용자, 단일 요청, 온도 0.3, /no_think으로 사고 모드 비활성화, 요청 간 프롬프트 캐싱 없음.

컨텍스트 스케일링 벤치마크는 동일한 모델과 GPU를 사용하여 점진적으로 더 큰 프롬프트(512에서 16K+ 토큰)를 사용했으며, 합성 이상반응 목록으로 구성되었고, 64 최대 출력 토큰만으로 입력 크기에 따른 프롬프트 처리 및 생성의 확장 방식을 분리했습니다.

주요 발견 사항

벤치마크는 ROCm 대 AMDVLK Vulkan에 대한 흥미로운 결과를 보여주었으며, 각 백엔드가 언제 최고 성능을 발휘하는지 보여주는 컨텍스트 스케일링 테스트를 포함했습니다. 소스는 대부분의 기존 비교가 M5 Max 노트북과 W7900 워크스테이션 같은 구성 간 선택이나 Vulkan 대비 ROCm 설정의 번거로움 가치를 판단하는 데 도움이 되지 않는다고 언급합니다.

📖 Read the full source: r/LocalLLaMA