Krasis: 대규모 MoE 모델을 위한 하이브리드 CPU/GPU 런타임, RTX 5080에서 3,324 tok/s 프리필 성능 달성

Krasis는 대규모 Mixture-of-Experts(MoE) 모델을 위해 특별히 설계된 하이브리드 CPU/GPU 런타임입니다. 핵심 접근 방식은 계산 집약적인 프리필 단계에는 GPU를 사용하고, 디코드에는 CPU를 처리하며, 시스템 RAM이 추가 용량을 제공하여 성능을 극대화합니다.
벤치마크 결과
RTX 5080 구성:
- 하드웨어: AMD 5900X, DDR4-3200, 1x RTX 5080 16GB, PCIe 4.0 x16
- Qwen3-Coder-Next (80B) Q4: 3,324 토큰/초 프리필, 9.7초 TTFT (35K 컨텍스트), 14.9 토큰/초 디코드
EPYC 구성:
- 하드웨어: AMD EPYC 7742 (64코어), DDR4-2666 8채널, 1x RTX 2000 Ada 16GB, PCIe 4.0 x8
- Qwen3-Coder-Next (80B) Q4: 1,060 토큰/초 프리필, 18.9초 TTFT, 15.8 토큰/초 디코드
- Qwen3-Coder-Next (80B) Q8: 873 토큰/초 프리필, 40.1초 TTFT, 12.4 토큰/초 디코드
- Qwen3.5-35B-A3B Q4: 1,374 토큰/초 프리필, 14.6초 TTFT, 15.0 토큰/초 디코드
- Qwen3-235B-A22B Q4: 289 토큰/초 프리필, 69.1초 TTFT, 3.4 토큰/초 디코드
- DeepSeek V2-Lite (16B) Q4: 1,477 토큰/초 프리필, 13.6초 TTFT, 20.2 토큰/초 디코드
- DeepSeek V2-Lite (16B) Q8: 1,317 토큰/초 프리필, 15.2초 TTFT, 17.8 토큰/초 디코드
벤치마크는 프리필에 10K–50K 토큰 프롬프트를 사용하고(20K/35K/50K 중 최고 결과 보고), 디코드에는 64토큰 생성(3회 실행 평균)을 사용했습니다.
작동 방식
몇 개의 레이어만 GPU로 오프로드하고 모델의 대부분을 CPU에서 실행하는 표준 런타임과 달리, Krasis는 GPU를 스트리밍 컴퓨팅 엔진으로 취급합니다. 가능한 한 빠르게 VRAM을 통해 모델을 푸시하여 전송을 동시 컴퓨팅 아래에 숨깁니다. GPU는 전체 프리필 패스를 처리한 후, CPU가 디코드를 처리합니다.
트레이드오프
- RAM 소비량 많음: 양자화된 모델 가중치의 약 2.5배에 해당하는 시스템 RAM이 필요함(예: Q4에서 Qwen3-Coder-Next의 경우 약 100GB)
- NVIDIA 카드 전용
- 특히 MoE 모델을 대상으로 함(밀집 모델에서는 디코드가 느릴 수 있음)
- 전처리 및 캐싱으로 인해 첫 실행은 느림
- 디스크 소비량 많음: 원본 BF16 safetensors 파일이 필요하며 캐시된 변환 모델을 저장함(양자화된 모델 크기의 약 2배)
지원 모델
Qwen3-Coder-Next(가장 철저히 테스트됨), Qwen3.5-35B-A3B, Qwen3-235B-A22B, DeepSeek V2-Lite. 다른 모델은 곧 추가될 예정입니다.
기술적 세부사항
- Rust + Python(오케스트레이션용)으로 작성됨
- OpenAI 호환 API(Cursor, OpenCode 등과 작동)
- 구성을 위한 대화형 런처
- SSPL 라이선스(사용, 수정, 배포 무료)
- GitHub: https://github.com/brontoguana/krasis
개발자는 다음에 지원할 모델에 대한 피드백, 트레이드오프에 대한 생각, 5-시리즈 카드와 PCIe 5.0을 가진 사용자의 벤치마크를 구하고 있습니다.
📖 전체 소스 읽기: r/LocalLLaMA
👀 See Also

OpenMind는 OpenClaw 설치에 시각적 마인드맵 인터페이스를 추가합니다.
OpenMind는 OpenClaw 설치를 실시간 메모리 시각화, 핫-스왑 가능한 로직, 모든 노드 간 전체 텍스트 검색 기능을 갖춘 대화형 실시간 편집 마인드 맵으로 변환하는 오픈소스 도구입니다.

Ollama 업데이트, Kimi k2.5 클라우드 모델에 OpenClaw 지원 추가
Ollama가 클라우드 모델에 대한 OpenClaw 지원을 통합한 업데이트를 발표했습니다. 여기에는 웹 검색 기능이 포함된 Kimi k2.5 모델에 대한 무료 접근이 포함되며, NVIDIA 데이터 센터에서 실행됩니다.

Membase: 도구 간 AI 어시스턴트를 위한 외부 메모리 레이어
Membase는 대화 컨텍스트를 지식 그래프로 추출 및 저장한 후, Claude, ChatGPT, Cursor, Gemini 및 기타 AI 도구 간의 새로운 채팅에 관련 메모리를 주입하는 외부 메모리 레이어입니다. 현재 프라이빗 베타 단계로 모든 기능을 무료로 이용할 수 있습니다.

GSD-Lite: TDD를 강제하고 테스트 생략을 방지하는 Claude 코드용 상태 머신
GSD-Lite는 Claude Code에 12단계 워크플로우 머신을 추가하는 오픈소스 MCP 서버로, 특정한 반합리화 프롬프트를 통해 테스트 주도 개발을 강제하며 실행, 검토, 디버깅을 위한 별도의 에이전트 컨텍스트를 제공합니다.