Qwen3.5 RTX 4090 벤치마크: 2K~400K 컨텍스트 성능 측정

RTX 4090에서의 Qwen3.5 성능 테스트

한 개발자가 RTX 4090 GPU에서 실행되는 Qwen3.5 모델의 벤치마크 결과를 공유했으며, 2,048에서 400,000 토큰까지의 컨텍스트 창을 테스트했습니다. 테스트는 원래 262k 컨텍스트를 위해 계획되었지만 yarn 및 기타 방법을 사용하여 400k까지 확장되었습니다.

테스트된 모델

다음 Qwen3.5 모델 변형이 벤치마크되었습니다:

Qwen3.5-0.8B-Q4_K_M
Qwen3.5-0.8B-bf16
Qwen3.5-2B-Q4_K_M
Qwen3.5-2B-bf16
Qwen3.5-4B-Q4_K_M
Qwen3.5-4B-bf16
Qwen3.5-9B-Q4_K_M
Qwen3.5-9B-bf16
Qwen3.5-27B-Q4_K_M
Qwen3.5-35B-A3B-Q4_K_M

테스트된 컨텍스트 창

모델은 다음과 같은 특정 컨텍스트 길이에서 평가되었습니다: 2048, 4096, 8192, 32768, 65536, 98304, 131072, 196608, 262144, 327680, 360448, 393216, 그리고 400000 토큰.

테스트 방법론

벤치마크 스크립트는 8비트 및 4비트 KV 캐시를 사용한 NGL 설정으로 가능한 최고의 토큰/초 속도를 달성하도록 구성되었습니다. 개발자는 초기 첫 토큰까지의 시간(TTFT)이 길게 나타나지만, Warm TTFT Avg (s) 열은 KV 캐시가 로드된 후 더 나은 성능을 보여준다고 언급했습니다. 컨텍스트는 의도적으로 첫 상호작용에서 완전히 로드되었습니다.

컨텍스트 능력을 테스트하기 위해, 모델에 로그를 요약하는 1문장 프롬프트가 주어졌고, 그 뒤에 2k에서 400k 토큰의 로그 데이터가 이어졌습니다. 개발자는 일부 불일치를 보고했지만 전반적으로 만족스러운 성능이라고 언급했습니다.

현재 상태 및 다음 단계

세 모델이 테스트 중 실패하여 KV 오프로드 테스트를 진행 중입니다: Qwen3.5-4B-bf16, Qwen3.5-27B-Q4_K_M, 그리고 Qwen3.5-35B-A3B-Q4_K_M. 개발자는 스크립트 문제로 24시간의 런타임이 낭비된 후 이러한 테스트를 재시작해야 했습니다.

VRAM 오프로딩 테스트가 완료되면, 개발자는 기초 모델과 결과를 비교할 계획이며 분석을 위해 출력을 저장했습니다. 개발자는 특히 9B 및 27B 밀집 모델의 성능에 놀라움을 표했습니다.

개발자는 어떤 모델과 비교할지, 그리고 평가를 위한 어떤 등급 방법론을 사용할지에 대한 커뮤니티의 의견을 구하고 있습니다.

📖 전체 출처 읽기: r/openclaw