Qwen3.5-27B-FP8 성능 벤치마크 (OpenClaw 에이전트 포함)

✍️ OpenClawRadar📅 게시일: February 28, 2026🔗 Source
Qwen3.5-27B-FP8 성능 벤치마크 (OpenClaw 에이전트 포함)
Ad

커뮤니티 테스트 성능 벤치마크

커뮤니티 테스트는 48GB VRAM을 탑재한 단일 수정 RTX 4090 GPU를 사용하여 수행되었습니다. 공식 Qwen3.5-35B-A3B-FP8 및 Qwen3.5-27B-FP8 모델이 256K 컨텍스트 길이로 테스트되었습니다.

프레임워크 권장사항

SGLang을 권장합니다 접두사 캐싱을 완전히 지원하는 유일한 프레임워크로, Qwen3.5의 하이브리드 어텐션 아키텍처에 필수적입니다.

  • 100K 컨텍스트 기준: 콜드 스타트 프리필은 약 10초 소요
  • 캐싱 적용 시: 프리필이 200ms로 감소
  • 결과: 매우 낮은 첫 토큰 지연 시간과 극도로 빠른 출력

모델 성능 지표

  • Qwen3.5-35B-A3B-FP8: 120 토큰/초로 시작하여 80 토큰/초로 감소
  • Qwen3.5-27B-FP8: 20 토큰/초로 시작하여 약간 감소한 18 토큰/초

OpenClaw 에이전트 확장성

OpenClaw는 6개의 에이전트를 동시에 실행하는 에이전트 팀을 운영할 수 있으며, 속도가 120 토큰/초까지 확장됩니다. 테스터는 이 확장 동작에 놀라움을 표시했습니다.

언급된 단점은 이 구성에서 단일 스레드 성능이 느리다는 점입니다.

MTP 최적화 참고사항

27B-FP8 모델에 MTP(다중 토큰 예측)를 활성화하면 단일 요청 생성 속도를 크게 향상시킬 수 있습니다:

  • 단일 NVIDIA H100 기준: 20K 컨텍스트 창으로 100 토큰/초 유지
  • 64K 토큰 프리필 속도: 1초 미만

중요 주의사항: MTP는 접두사 캐싱과 충돌하며 VRAM 사용량이 매우 높습니다. RTX 4090 사용자는 낮은 num-steps 설정으로 시작해야 합니다.

📖 전체 출처 읽기: r/openclaw

Ad

👀 See Also

서방은 건축하는 법을 잊었다: 국방 공급망 붕괴와 소프트웨어 공학을 위한 교훈
News

서방은 건축하는 법을 잊었다: 국방 공급망 붕괴와 소프트웨어 공학을 위한 교훈

레이시온은 40년 된 종이 설계도에서 스팅어 미사일 생산을 재개하기 위해 은퇴한 엔지니어들을 다시 불러들여야 했습니다. 이러한 패턴은 이제 소프트웨어에서도 재현되고 있으며, 수년간의 비용 최적화로 인해 인재 파이프라인과 조직 지식이 쇠퇴했습니다.

OpenClawRadar
AI 디자인 패턴에 대한 HN 제출물 점수 매기기
News

AI 디자인 패턴에 대한 HN 제출물 점수 매기기

한 개발자가 500개의 Show HN 랜딩 페이지를 분석하여 Inter 폰트, 색상이 있는 왼쪽 테두리, 글래스모피즘과 같은 일반적인 AI 생성 디자인 패턴을 감지했습니다. 점수 체계는 5개 이상의 패턴을 가진 사이트의 21%를 '심각한 슬롭'으로 식별했습니다.

OpenClawRadar
AI 생성 코드의 숨겨진 비용: 스파게티 코드 디버깅
News

AI 생성 코드의 숨겨진 비용: 스파게티 코드 디버깅

레딧 게시물이 AI 생성 코드를 빠르게 배포한 후 부풀려진 함수, 널 상태 버그, 난해한 변수명을 디버깅하는 데 몇 주를 보내는 현실을 포착했습니다.

OpenClawRadar
머큐리 2: 실시간 AI 코딩을 위한 확산 기반 모델
News

머큐리 2: 실시간 AI 코딩을 위한 확산 기반 모델

머큐리 2는 순차적인 토큰별 디코딩 대신 확산 기반 생성을 사용하며, 토큰을 병렬로 생성하고 여러 단계에 걸쳐 개선합니다. NVIDIA Blackwell GPU에서 1,009 토큰/초를 달성한다고 주장하며, 가격은 입력 토큰 100만 개당 $0.25, 출력 토큰 100만 개당 $0.75입니다.

OpenClawRadar