Krasis LLM 런타임, Llama.cpp 대비 8.9배 빠른 프리필 및 4.7배 빠른 디코딩 속도 향상 보여

성능 벤치마크
Krasis는 동일한 하드웨어에서 실행할 때 llama.cpp에 비해 상당한 성능 향상을 보여줍니다. PCIE 4.0으로 제한된 단일 5090 GPU에서 Krasis는 다음과 같은 결과를 보입니다:
- 8.9배 빠른 프리필 속도
- 4.7배 빠른 디코드 속도
Qwen3-Coder-Next에 대한 구체적인 벤치마크 결과는 Krasis가 단일 16GB 5080 GPU에서 실행할 때 다음과 같은 성능을 달성함을 보여줍니다:
- 초당 1801 토큰 프리필
- 초당 26.8 토큰 디코드
이는 레이어 오프로딩을 사용하는 32GB 5090 GPU에서 실행되는 llama.cpp보다 우수한 성능입니다.
아키텍처 변경 사항
Krasis의 최신 버전은 이중 포맷 시스템을 제거하고 이제 프리필과 디코드를 모두 GPU에서 실행하며 각 단계에 맞는 최적화 전략을 적용합니다. 이러한 아키텍처 변경으로 인해 다음과 같은 이점이 있습니다:
- CPU 요구 사항 감소
- 시스템 RAM 메모리 속도에 대한 의존성 감소
- 전체 시스템 RAM 사용량 감소 (이전의 2.5배 모델 요구 사항에 비해 양자화된 모델과 약간의 오버헤드만 필요)
지원 모델 및 성능
현재 지원되는 모델과 단일 5090 GPU(PCIE 4.0)에서의 성능은 다음과 같습니다:
- Qwen3.5-35B-A3B: 4475 프리필, 109.1 디코드
- Qwen3-Coder-Next: 3560 프리필, 70.3 디코드
- Qwen3.5-122B-A10B: 2897 프리필, 27.7 디코드
- Qwen3-235B-A22B: 2124 프리필, 9.3 디코드
향후 개발 계획
개발자는 다음과 같은 계획을 가지고 있습니다:
- Nvidia Nemotron 모델 지원 추가, 특히 5080과 같은 소비자용 GPU를 대상으로 Nemotron Super 지원
- 출시 시 더 큰 Nemotron 모델 지원 가능성
- Opencode 및 Aider에 대한 IDE 및 도구 지원 확대
현재 기능
Krasis는 현재 다음과 같은 기능을 제공합니다:
- OpenAI 호환 서버
- 단일 라인 설치
- GitHub에서 이용 가능
📖 Read the full source: r/LocalLLaMA
👀 See Also

로컬 도서 번역 파이프라인, Qwen 32B와 Mistral 24B를 활용한 문맥 기반 RAG 적용
한 개발자가 여덟 개의 파이썬 스크립트, PDF 추출용 Marker, 글로벌 용어집을 활용한 번역용 Qwen 32B, 스타일 편집용 Mistral 24B를 사용하여 완전 자동화된 PDF-ePub 도서 번역 파이프라인을 구축했습니다.

오픈클로로 지속 가능한 AI 지식 인프라 구축하기
한 개발자가 AI 설정에서 흔히 발생하는 상태 비저장 문제를 해결하기 위해 OpenClaw 위에 '브레인'이라는 완전한 지식 인프라 시스템을 구축했습니다. 이 시스템은 Ollama, Postgres, MongoDB, Qdrant, Memgraph를 사용하여 로컬 하드웨어에서 전적으로 실행됩니다.

HolyCode: 지속적인 AI 코딩 에이전트 환경을 위한 Docker 컨테이너
HolyCode는 AI 코딩 에이전트를 위한 지속적인 개발 환경을 제공하는 Docker 컨테이너로, 재구축 시에도 세션, 설정, 플러그인을 유지합니다. 에이전트 워크플로우를 위해 사전 구성된 브라우저 도구를 포함하며, OpenCode를 통해 Claude, OpenAI, Gemini 및 기타 제공업체를 지원합니다.

옵티오: 티켓에서 PR까지 쿠버네티스에서 AI 코딩 에이전트 오케스트레이션하기
Optio는 Claude Code나 Codex와 같은 AI 코딩 에이전트를 사용하여 티켓을 병합된 풀 리퀘스트로 전환하는 오픈소스 오케스트레이션 시스템입니다. CI 실패나 리뷰 피드백 시 에이전트를 자동으로 재개하는 피드백 루프를 통해 격리된 Kubernetes 파드에서 전체 라이프사이클을 처리합니다.