Qwen 3.6 27B M2 맥북 프로 성능: 7.9→3.1 t/s 벤치마크

r/LocalLLaMA의 한 개발자가 Qwen 3.6 27B(IQ4_XS unsloth 양자화)를 32GB RAM의 M2 맥북 프로에서 테스트했습니다. 예상대로 27B 밀집 모델에는 사양이 부족했지만, 현장 보고서는 구체적인 수치와 성능 및 출력 품질에 대한 현실적인 평가를 제공합니다.

명령 및 설정

모델은 다음 명령어로 llama-server를 사용하여 서빙되었습니다:

llama-server -m ~/models/unsloth/Qwen3.6-27B-IQ4_XS.gguf --mmproj ~/models/unsloth/Qwen3.6-27B-mmproj-BF16.gguf -c 131072 --batch-size 256 -ngl 99 -np 1 --host 127.0.0.1 --port 8899 -ctk q8_0 -ctv q8_0 --spec-type ngram-mod --spec-ngram-size-n 24 --draft-min 12 --draft-max 48

주요 선택 사항: 단일 프로세스(-np 1)로 GPU 과부하 방지, ngram-mod를 사용한 추측 디코딩, 131072 토큰의 컨텍스트 창.

성능 분석

초기 속도: 프롬프트 처리 80 t/s, 토큰 생성 7.9 t/s. 52,000 토큰의 컨텍스트에서 성능이 프롬프트 처리 4 t/s(저자가 오타가 아님을 확인) 및 토큰 생성 3.1 t/s로 급락했습니다. 메모리 압력은 빨간색 영역에 도달하지 않았으며, 이는 병목이 스왑이 아닌 메모리 대역폭임을 나타냅니다.

추측 디코딩 효과 없음

보고자는 ngram-mod 추측 디코딩을 활성화했지만 실질적인 이점을 보지 못했습니다. 로그에 다음이 표시되었습니다:

accept: low acceptance streak (3) – resetting ngram_mod ... draft acceptance rate = 1.00000 ( 2 accepted / 2 generated)

낮은 n-gram 일치로 인해 모델이 지속적으로 재설정됩니다. 겉보기 100% 수락율은 작은 샘플 크기의 인공물입니다. 저자는 밀집 모델이 ngram-mod 접근 방식이 효과적일 만큼 자체 반복성이 충분하지 않다고 결론지었습니다.

코드 품질

느린 속도에도 불구하고 Qwen 3.6 27B가 생성한 코드는 훌륭함으로 평가되었습니다. 추가 프롬프트 없이 초기 작업만으로 상당한 코드베이스를 분석했으며, 품질에서 Qwen 35B A3B(MoE) 모델을 능가했습니다. 저자는 출력을 자체 호스팅 Claude Sonnet에서 기대할 수 있는 수준과 비교하며, Claude Opus 4.7도 인상적이었다고 언급했습니다.

주요 시사점

메모리 대역폭이 밀집 모델을 지배: Apple Silicon에서 컨텍스트가 증가함에 따라 토큰 생성이 절반으로 감소했습니다. 스왑이 없어도 대역폭 제한이 성능을 저하시켰습니다.
단일 프로세스가 최선: 이 하드웨어에서 동시 에이전트 작업을 실행해도 이점이 없습니다. 단순히 직렬 대기열만 생성됩니다.
추측 디코딩은 모델 의존적: Ngram-mod가 여기서 도움이 되지 않았습니다. 모델의 낮은 반복성으로 인해 초안 일치가 방지되었습니다.

저자는 R9700(현재 Amazon에서 약 $1,400, eBay에서 더 높음)과 비슷한 사양의 클라우드 GPU에서 Qwen 3.6 27B를 테스트하여 자신의 프로그래밍 작업에서 진정한 성능을 확인할 계획입니다.

📖 전체 출처 읽기: r/LocalLLaMA