Qwen3.5 397B 로컬 실행: 맥 스튜디오 M3 울트라 vs 듀얼 DGX 스파크 성능 비교

로컬 Qwen3.5 397B를 위한 하드웨어 비교

한 개발자가 Claude API 토큰에 월 2천 달러를 지출한 후, 총 2만 달러를 로컬 하드웨어에 투자했습니다: Mac Studio M3 Ultra 512GB와 듀얼 DGX Spark 설정으로, 각각 세금 포함 약 1만 달러가 들었습니다. 둘 다 로컬에서 Qwen3.5 397B A17B를 실행하는 테스트를 거쳤습니다.

Mac Studio M3 Ultra 512GB 성능

MLX 6비트 양자화를 사용하여 323GB 모델이 512GB 통합 메모리에 로드되었습니다. 생성 속도는 초당 30-40 토큰이었으며, 메모리 대역폭은 약 800 GB/s로 토큰 생성이 부드럽게 느껴졌습니다. 설정은 간단했습니다: mlx vlm을 설치하고 모델을 가리키기만 하면 됩니다. 약점으로는 느린 프리필(큰 시스템 프롬프트에서 30초 이상 소요)과 추론과 함께 배치 임베딩을 실행할 때 성능 저하가 포함되었습니다. 개발자는 mlx vlm이 도구 호출을 파싱하거나 사고 토큰을 기본적으로 제거하지 않기 때문에 500줄의 비동기 프록시를 작성해야 했습니다.

듀얼 DGX Spark 설정 성능

INT4 AutoRound 양자화를 사용하여, vLLM TP=2를 통해 두 개의 128GB 노드에 걸쳐 노드당 98GB가 로드되었습니다. 생성 속도는 초당 27-28 토큰이었습니다. 이 설정은 CUDA 텐서 코어, vLLM 커널 및 텐서 병렬 처리를 활용하여 Mac Studio보다 더 빠른 프리필을 제공했습니다. MLX에서 며칠 걸렸던 배치 임베딩이 CUDA에서는 몇 시간 만에 완료되었습니다. 메모리 대역폭은 노드당 약 273 GB/s로, 더 많은 컴퓨팅 성능에도 불구하고 생성 속도를 제한했습니다.

설정의 어려움은 상당했습니다: 하나의 QSFP 케이블만 작동했고(두 번째는 NCCL을 충돌시킴), Node2의 IP는 일시적이었으며, GPU 메모리 사용률 상한선은 0.88이었고(이진 탐색으로 찾아야 함), 모든 잘못된 추측은 체크포인트 샤드가 다시 로드되는 동안 15분의 비용이 들었으며, 모든 모델 로드 전에 두 노드에서 페이지 캐시를 비워야 했고, 일부 유닛은 20분 이내에 열 제한이 발생했습니다. 개발자는 안정성을 달성하는 데 며칠이 걸렸다고 보고했습니다.

아키텍처 및 사용 사례

개발자는 두 시스템을 모두 유지하며, Mac Studio는 추론 전용으로(모델과 KV 캐시에 전체 512GB 사용), Spark는 RAG, 임베딩, 재순위 및 기타 작업에 사용했습니다. 이들은 Tailscale을 통해 통신합니다. 이 분리는 임베딩 모델이 Mac Studio에서 메인 모델과 메모리를 경쟁하는 것을 방지하면서 Spark에서 전용 CUDA 리소스를 제공합니다.

헤드투헤드 사양

비용: 둘 다 1만 달러
메모리: Mac Studio 512GB 통합 vs. Spark 256GB (128×2)
대역폭: Mac Studio ~800 GB/s vs. Spark 노드당 ~273 GB/s
양자화: Mac Studio MLX 6비트 (323GB) vs. Spark INT4 AutoRound (98GB/노드)
생성 속도: Mac Studio 30-40 tok/s vs. Spark 27-28 tok/s
최대 컨텍스트: Mac Studio 256K 토큰 vs. Spark 130K+ 토큰
설정: Mac Studio 쉬움 but 직접 조작 vs. Spark 어려움
강점: Mac Studio 대역폭 vs. Spark 컴퓨팅
약점: Mac Studio 컴퓨팅 vs. Spark 대역폭

권장사항

Mac Studio는 그냥 작동하기를 원하고, 부드러운 생성을 위한 800 GB/s 대역폭을 중요하게 여기며, 추론과 함께 무거운 임베딩 작업을 계획하지 않는 경우 권장됩니다. 듀얼 Spark는 Linux와 Docker에 익숙하고, CUDA와 vLLM을 기본적으로 원하며, 추론과 함께 RAG나 임베딩을 실행할 계획이고, 더 장기적인 능력을 위해 초기 설정에 며칠을 보낼 의향이 있는 경우 권장됩니다. 개발자는 Mac Studio가 20%의 노력으로 80%의 경험을 제공하는 반면, Spark는 더 많은 능력을 제공하지만 설정 시간에 실제 비용을 요구한다고 설명합니다.

손익분기점 계산: 월 2천 달러 API 지출 vs. 총 2만 달러 하드웨어는 10개월 후 손익분기점에 도달하며, 그 후 추론은 완전한 프라이버시와 함께 무료입니다.

📖 전체 소스 읽기: r/LocalLLaMA