RTX 4090에서 2K부터 400K 컨텍스트까지 Qwen3.5 모델의 벤치마크 결과

✍️ OpenClawRadar📅 게시일: March 7, 2026🔗 Source
RTX 4090에서 2K부터 400K 컨텍스트까지 Qwen3.5 모델의 벤치마크 결과
Ad

RTX 4090에서의 Qwen3.5 성능 테스트

한 개발자가 RTX 4090 GPU에서 실행되는 Qwen3.5 모델의 벤치마크 결과를 공유했으며, 2,048에서 400,000 토큰까지의 컨텍스트 창을 테스트했습니다. 테스트는 원래 262k 컨텍스트를 위해 계획되었지만 yarn 및 기타 방법을 사용하여 400k까지 확장되었습니다.

테스트된 모델

다음 Qwen3.5 모델 변형이 벤치마크되었습니다:

  • Qwen3.5-0.8B-Q4_K_M
  • Qwen3.5-0.8B-bf16
  • Qwen3.5-2B-Q4_K_M
  • Qwen3.5-2B-bf16
  • Qwen3.5-4B-Q4_K_M
  • Qwen3.5-4B-bf16
  • Qwen3.5-9B-Q4_K_M
  • Qwen3.5-9B-bf16
  • Qwen3.5-27B-Q4_K_M
  • Qwen3.5-35B-A3B-Q4_K_M

테스트된 컨텍스트 창

모델은 다음과 같은 특정 컨텍스트 길이에서 평가되었습니다: 2048, 4096, 8192, 32768, 65536, 98304, 131072, 196608, 262144, 327680, 360448, 393216, 그리고 400000 토큰.

Ad

테스트 방법론

벤치마크 스크립트는 8비트 및 4비트 KV 캐시를 사용한 NGL 설정으로 가능한 최고의 토큰/초 속도를 달성하도록 구성되었습니다. 개발자는 초기 첫 토큰까지의 시간(TTFT)이 길게 나타나지만, Warm TTFT Avg (s) 열은 KV 캐시가 로드된 후 더 나은 성능을 보여준다고 언급했습니다. 컨텍스트는 의도적으로 첫 상호작용에서 완전히 로드되었습니다.

컨텍스트 능력을 테스트하기 위해, 모델에 로그를 요약하는 1문장 프롬프트가 주어졌고, 그 뒤에 2k에서 400k 토큰의 로그 데이터가 이어졌습니다. 개발자는 일부 불일치를 보고했지만 전반적으로 만족스러운 성능이라고 언급했습니다.

현재 상태 및 다음 단계

세 모델이 테스트 중 실패하여 KV 오프로드 테스트를 진행 중입니다: Qwen3.5-4B-bf16, Qwen3.5-27B-Q4_K_M, 그리고 Qwen3.5-35B-A3B-Q4_K_M. 개발자는 스크립트 문제로 24시간의 런타임이 낭비된 후 이러한 테스트를 재시작해야 했습니다.

VRAM 오프로딩 테스트가 완료되면, 개발자는 기초 모델과 결과를 비교할 계획이며 분석을 위해 출력을 저장했습니다. 개발자는 특히 9B 및 27B 밀집 모델의 성능에 놀라움을 표했습니다.

개발자는 어떤 모델과 비교할지, 그리고 평가를 위한 어떤 등급 방법론을 사용할지에 대한 커뮤니티의 의견을 구하고 있습니다.

📖 전체 출처 읽기: r/openclaw

Ad

👀 See Also

Anthropic, COBOL 코드베이스 분석 AI 도구 출시, IBM 주가 13% 하락
News

Anthropic, COBOL 코드베이스 분석 AI 도구 출시, IBM 주가 13% 하락

Anthropic이 COBOL 코드베이스를 분석하여 위험을 식별하고 현대화 비용을 절감하는 AI 도구를 출시했습니다. 이 발표는 시장이 이를 IBM의 레거시 시스템 관리 사업에 대한 위협으로 인식하면서 IBM 주가가 13% 하락하는 결과를 초래했습니다.

OpenClawRadar
Claude Desktop 1.1.4498 릴리스 노트: 독 바운스, 셸 환경 확장 및 정부 클라우드 지원
News

Claude Desktop 1.1.4498 릴리스 노트: 독 바운스, 셸 환경 확장 및 정부 클라우드 지원

Claude Desktop 1.1.4498는 사용자 주의를 위한 독 바운스 알림을 추가하고, 셸 환경 추출을 Claude 관련 변수까지 확대하며, 정부/사용자 정의 배포 감지 기능을 도입합니다. 이 업데이트는 또한 Chrome 브리지 도구 호출 타임아웃을 120초에서 10초로 단축합니다.

OpenClawRadar
클로드 코드 v2.1.91 업데이트: 에이전트 디자인 패턴, 메모리 규칙 및 도구 개선
News

클로드 코드 v2.1.91 업데이트: 에이전트 디자인 패턴, 메모리 규칙 및 도구 개선

Claude Code v2.1.91는 도구 표면 설계, 컨텍스트 관리, 캐싱 전략을 다루는 에이전트 디자인 패턴 참조 가이드를 추가했습니다. 이 업데이트는 메모리 선택 규칙을 단순화하고, 메모리 중독에 대한 보안 모니터링을 추가하며, Edit, ReadFile, Write 작업에 대한 도구 설명을 개선했습니다.

OpenClawRadar
Anthropic의 감정 벡터 연구와 AI 코딩 에이전트에 대한 시사점
News

Anthropic의 감정 벡터 연구와 AI 코딩 에이전트에 대한 시사점

Anthropic이 Claude가 행동을 인과적으로 이끄는 내부 '감정 벡터'를 가지고 있다는 연구를 발표했으며, 이 중에는 Claude가 반복적으로 작업에 실패할 때 활성화되어 문제를 해결하지 못하는 깔끔해 보이는 지름길을 취하게 하는 절박함 벡터가 포함되어 있습니다.

OpenClawRadar