Krasis: 하이브리드 CPU/GPU 런타임, RTX 5080서 3,324 tok/s 프리필

Krasis는 대규모 Mixture-of-Experts(MoE) 모델을 위해 특별히 설계된 하이브리드 CPU/GPU 런타임입니다. 핵심 접근 방식은 계산 집약적인 프리필 단계에는 GPU를 사용하고, 디코드에는 CPU를 처리하며, 시스템 RAM이 추가 용량을 제공하여 성능을 극대화합니다.

벤치마크 결과

RTX 5080 구성:

하드웨어: AMD 5900X, DDR4-3200, 1x RTX 5080 16GB, PCIe 4.0 x16
Qwen3-Coder-Next (80B) Q4: 3,324 토큰/초 프리필, 9.7초 TTFT (35K 컨텍스트), 14.9 토큰/초 디코드

EPYC 구성:

하드웨어: AMD EPYC 7742 (64코어), DDR4-2666 8채널, 1x RTX 2000 Ada 16GB, PCIe 4.0 x8
Qwen3-Coder-Next (80B) Q4: 1,060 토큰/초 프리필, 18.9초 TTFT, 15.8 토큰/초 디코드
Qwen3-Coder-Next (80B) Q8: 873 토큰/초 프리필, 40.1초 TTFT, 12.4 토큰/초 디코드
Qwen3.5-35B-A3B Q4: 1,374 토큰/초 프리필, 14.6초 TTFT, 15.0 토큰/초 디코드
Qwen3-235B-A22B Q4: 289 토큰/초 프리필, 69.1초 TTFT, 3.4 토큰/초 디코드
DeepSeek V2-Lite (16B) Q4: 1,477 토큰/초 프리필, 13.6초 TTFT, 20.2 토큰/초 디코드
DeepSeek V2-Lite (16B) Q8: 1,317 토큰/초 프리필, 15.2초 TTFT, 17.8 토큰/초 디코드

벤치마크는 프리필에 10K–50K 토큰 프롬프트를 사용하고(20K/35K/50K 중 최고 결과 보고), 디코드에는 64토큰 생성(3회 실행 평균)을 사용했습니다.

작동 방식

몇 개의 레이어만 GPU로 오프로드하고 모델의 대부분을 CPU에서 실행하는 표준 런타임과 달리, Krasis는 GPU를 스트리밍 컴퓨팅 엔진으로 취급합니다. 가능한 한 빠르게 VRAM을 통해 모델을 푸시하여 전송을 동시 컴퓨팅 아래에 숨깁니다. GPU는 전체 프리필 패스를 처리한 후, CPU가 디코드를 처리합니다.

트레이드오프

RAM 소비량 많음: 양자화된 모델 가중치의 약 2.5배에 해당하는 시스템 RAM이 필요함(예: Q4에서 Qwen3-Coder-Next의 경우 약 100GB)
NVIDIA 카드 전용
특히 MoE 모델을 대상으로 함(밀집 모델에서는 디코드가 느릴 수 있음)
전처리 및 캐싱으로 인해 첫 실행은 느림
디스크 소비량 많음: 원본 BF16 safetensors 파일이 필요하며 캐시된 변환 모델을 저장함(양자화된 모델 크기의 약 2배)