Qwen3.5-122B fp8 KV 캐시 손상 문제 및 성능 분석 결과

Blackwell SM120에서 Qwen3.5-122B 테스트의 주요 발견 사항

8x RTX PRO 6000 Blackwell 하드웨어(AWS g7e.48xlarge, SM120)에서 SGLang을 사용한 Qwen3.5-122B의 상세 테스트 결과, 중요한 구성 문제와 성능 특성이 드러났습니다. 가장 중요한 발견: fp8_e4m3 KV 캐시는 충돌하지 않지만 오류나 경고 없이 조용히 손상된 출력을 생성합니다. 적절한 답변 대신 느낌표와 반복이 나타납니다. 유일한 해결책은 bf16 KV 캐시를 사용하는 것입니다.

구성 요구사항

Qwen3.5-122B의 DeltaNet 레이어는 표준 MoE 모델에는 없는 제약을 추가합니다. SM120 하드웨어에서 설정에는 6가지 특정 Triton 백엔드 플래그가 필요했습니다:

어텐션 백엔드를 Triton으로 강제 설정(DeltaNet 레이어용)
KV 캐시를 bf16으로 강제 설정(fp8은 출력 손상)
CUDA 그래프 사용 안 함(Triton SMEM 오버플로우 때문)
HiCache 사용 안 함(DeltaNet과 호환되지 않음)

이는 동일한 하드웨어에서 M2.5 테스트와 대조되며, M2.5는 Triton 백엔드 플래그 2개만 필요했습니다.

성능 벤치마크

모든 테스트는 동일한 하드웨어와 방법론으로 SGLang nightly(cu13 20260219), TP=8을 사용했습니다:

버스트 tok/s: 1,985 vs 1,818 (Qwen3.5-122B vs M2.5)
온라인 4 rps: 310 vs 404
온라인 8 rps: 514 vs 744
단일 요청 tok/s: ~25 (MTP 포함) vs 72
Arena-Hard 품질: 6.99/10 vs 4.94/10 (Claude Opus 4.6로 평가, 리더보드 결과와 비교 불가)

최적화 결과

테스트한 최적화 경로 중 MTP(Multi-Token Prediction)만이 성능을 실질적으로 향상시켰으며, 단일 요청 속도를 2.75배(~9에서 ~25 tok/s) 향상시켰습니다. SM120 하드웨어에서 사용 가능한 다른 최적화(FP8 KV 캐시, CUDA 그래프, HiCache)는 Qwen3.5-122B의 DeltaNet 제약으로 인해 차단되었습니다.

Qwen3.5-122B는 버스트 처리량과 품질 지표에서 우수한 반면, M2.5는 Qwen3.5-122B의 DeltaNet이 차단하는 최적화를 사용할 수 있어 모든 지속적 서비스 지표에서 여전히 우수합니다.

전체 결과, 호환성 매트릭스, 정확한 재현 명령 및 모든 JSONL 아티팩트는 아래 링크된 GitHub 이슈에서 확인할 수 있습니다.

📖 전체 소스 읽기: r/LocalLLaMA