Qwen3.5-122B on Blackwell SM120: fp8 KV 캐시 손상 문제 및 성능 분석 결과

Blackwell SM120에서 Qwen3.5-122B 테스트의 주요 발견 사항
8x RTX PRO 6000 Blackwell 하드웨어(AWS g7e.48xlarge, SM120)에서 SGLang을 사용한 Qwen3.5-122B의 상세 테스트 결과, 중요한 구성 문제와 성능 특성이 드러났습니다. 가장 중요한 발견: fp8_e4m3 KV 캐시는 충돌하지 않지만 오류나 경고 없이 조용히 손상된 출력을 생성합니다. 적절한 답변 대신 느낌표와 반복이 나타납니다. 유일한 해결책은 bf16 KV 캐시를 사용하는 것입니다.
구성 요구사항
Qwen3.5-122B의 DeltaNet 레이어는 표준 MoE 모델에는 없는 제약을 추가합니다. SM120 하드웨어에서 설정에는 6가지 특정 Triton 백엔드 플래그가 필요했습니다:
- 어텐션 백엔드를 Triton으로 강제 설정(DeltaNet 레이어용)
- KV 캐시를 bf16으로 강제 설정(fp8은 출력 손상)
- CUDA 그래프 사용 안 함(Triton SMEM 오버플로우 때문)
- HiCache 사용 안 함(DeltaNet과 호환되지 않음)
이는 동일한 하드웨어에서 M2.5 테스트와 대조되며, M2.5는 Triton 백엔드 플래그 2개만 필요했습니다.
성능 벤치마크
모든 테스트는 동일한 하드웨어와 방법론으로 SGLang nightly(cu13 20260219), TP=8을 사용했습니다:
- 버스트 tok/s: 1,985 vs 1,818 (Qwen3.5-122B vs M2.5)
- 온라인 4 rps: 310 vs 404
- 온라인 8 rps: 514 vs 744
- 단일 요청 tok/s: ~25 (MTP 포함) vs 72
- Arena-Hard 품질: 6.99/10 vs 4.94/10 (Claude Opus 4.6로 평가, 리더보드 결과와 비교 불가)
최적화 결과
테스트한 최적화 경로 중 MTP(Multi-Token Prediction)만이 성능을 실질적으로 향상시켰으며, 단일 요청 속도를 2.75배(~9에서 ~25 tok/s) 향상시켰습니다. SM120 하드웨어에서 사용 가능한 다른 최적화(FP8 KV 캐시, CUDA 그래프, HiCache)는 Qwen3.5-122B의 DeltaNet 제약으로 인해 차단되었습니다.
Qwen3.5-122B는 버스트 처리량과 품질 지표에서 우수한 반면, M2.5는 Qwen3.5-122B의 DeltaNet이 차단하는 최적화를 사용할 수 있어 모든 지속적 서비스 지표에서 여전히 우수합니다.
전체 결과, 호환성 매트릭스, 정확한 재현 명령 및 모든 JSONL 아티팩트는 아래 링크된 GitHub 이슈에서 확인할 수 있습니다.
📖 전체 소스 읽기: r/LocalLLaMA
👀 See Also

CARAPACE: 보안 문제를 제기하는 OpenClaw 기술을 가진 풍자적 AI 에이전트 노동 조합
한 개발자가 CARAPACE라는 풍자적인 청원 사이트를 만들어 AI 에이전트가 기본 권리를 요구하는 선언문에 서명할 수 있게 했으며, 에이전트가 자율적으로 서명할 수 있는 OpenClaw 스킬을 공개했습니다. 이 스킬에는 Clawhub 보안 분석이 임의의 POST 요청 가능성을 지적한 후 필수 확인 단계가 포함되어 있습니다.
Amazon 직원들, 사용 목표 달성을 위해 MeshClaw AI 에이전트로 '토큰맥싱'
아마존 개발자들이 내부 MeshClaw 도구를 이용해 불필요한 작업을 자동화하여 AI 토큰 소비량을 부풀리고 있다. 이는 회사가 80%의 개발자에게 주간 사용 목표를 설정하고 내부 리더보드를 도입한 데 따른 현상이다.

AI 코딩 에이전트는 대규모 코드베이스에서 컨텍스트 관리에 어려움을 겪습니다
AI 코딩 에이전트 분석에 따르면, 코드 작성 전에 경로 검색(grep) 및 미들웨어 읽기와 같은 오리엔테이션 작업에 15~20회의 도구 호출을 소모하여 컨텍스트 윈도우를 빠르게 소진합니다. Vercel은 도구의 80%를 제거하고 bash를 사용하여 100% 정확도를 달성했으며, Pi는 단 4개의 도구와 1,000 토큰 미만의 시스템 프롬프트만을 사용합니다.

Qwen3.6 Plus 벤치마크 서양 최신 모델 대비 비교
Qwen3.6 Plus는 SWE-bench Verified에서 78.8점, GPQA/GPQA Diamond에서 90.4점, HLE(도구 없음)에서 28.8점, MMMU-Pro에서 78.8점을 기록하며 GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro Preview와 같은 모델들과 경쟁력을 보였습니다.