Krasis LLM 런타임, Llama.cpp 대비 8.9배 빠른 프리필 및 4.7배 빠른 디코딩 속도 향상 보여

✍️ OpenClawRadar📅 게시일: March 17, 2026🔗 Source

Krasis LLM 런타임, Llama.cpp 대비 8.9배 빠른 프리필 및 4.7배 빠른 디코딩 속도 향상 보여

Ad

성능 벤치마크

Krasis는 동일한 하드웨어에서 실행할 때 llama.cpp에 비해 상당한 성능 향상을 보여줍니다. PCIE 4.0으로 제한된 단일 5090 GPU에서 Krasis는 다음과 같은 결과를 보입니다:

8.9배 빠른 프리필 속도
4.7배 빠른 디코드 속도

Qwen3-Coder-Next에 대한 구체적인 벤치마크 결과는 Krasis가 단일 16GB 5080 GPU에서 실행할 때 다음과 같은 성능을 달성함을 보여줍니다:

초당 1801 토큰 프리필
초당 26.8 토큰 디코드

이는 레이어 오프로딩을 사용하는 32GB 5090 GPU에서 실행되는 llama.cpp보다 우수한 성능입니다.

아키텍처 변경 사항

Krasis의 최신 버전은 이중 포맷 시스템을 제거하고 이제 프리필과 디코드를 모두 GPU에서 실행하며 각 단계에 맞는 최적화 전략을 적용합니다. 이러한 아키텍처 변경으로 인해 다음과 같은 이점이 있습니다:

CPU 요구 사항 감소
시스템 RAM 메모리 속도에 대한 의존성 감소
전체 시스템 RAM 사용량 감소 (이전의 2.5배 모델 요구 사항에 비해 양자화된 모델과 약간의 오버헤드만 필요)

Ad

지원 모델 및 성능

현재 지원되는 모델과 단일 5090 GPU(PCIE 4.0)에서의 성능은 다음과 같습니다:

Qwen3.5-35B-A3B: 4475 프리필, 109.1 디코드
Qwen3-Coder-Next: 3560 프리필, 70.3 디코드
Qwen3.5-122B-A10B: 2897 프리필, 27.7 디코드
Qwen3-235B-A22B: 2124 프리필, 9.3 디코드

향후 개발 계획

개발자는 다음과 같은 계획을 가지고 있습니다:

Nvidia Nemotron 모델 지원 추가, 특히 5080과 같은 소비자용 GPU를 대상으로 Nemotron Super 지원
출시 시 더 큰 Nemotron 모델 지원 가능성
Opencode 및 Aider에 대한 IDE 및 도구 지원 확대

현재 기능

Krasis는 현재 다음과 같은 기능을 제공합니다:

OpenAI 호환 서버
단일 라인 설치
GitHub에서 이용 가능

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

수행사: 에이전트 내레이션을 침묵시켜 맥락과 토큰을 절약하는 기술

수행사: 에이전트 내레이션을 침묵시켜 맥락과 토큰을 절약하는 기술

레딧 사용자가 클로드 에이전트 응답에서 서사, 서문, 후문을 제거하는 스킬 'monk'를 게시했으며, 턴당 출력 토큰이 약 54% 감소하고 100회에서 컨텍스트 용량이 29-39% 증가한다고 주장합니다.

May 15, 2026, 02:20 PM UTC

레딧 토론: 적절한 모델 아키텍처 없이는 AI 직원 개성 안정성을 위한 Identity.md 파일만으로는 부족하다

레딧 토론: 적절한 모델 아키텍처 없이는 AI 직원 개성 안정성을 위한 Identity.md 파일만으로는 부족하다

레딧 토론에 따르면, 기본 모델 아키텍처가 역할 분리를 시뮬레이션만 할 뿐 실제 경계를 강제하지 못한다면, AI 직원 팀의 성격 유출을 방지하기 위해 identity.md 파일을 조정하는 것은 효과적이지 않다고 합니다. 해당 게시물은 100회 이상의 자체 진화 사이클을 통해 기본 학습에 경계 인식을 구워 넣은 Minimax M2.7 백엔드 사용을 권장합니다.

Apr 6, 2026, 06:45 PM UTC

Murmur: Claude 코드 세션 자동화를 위한 오픈소스 Cron 데몬

Murmur: Claude 코드 세션 자동화를 위한 오픈소스 Cron 데몬

Murmur는 HEARTBEAT.md 파일을 설정 파일로 사용하여 Claude 코드 세션을 예약하고 자동화하는 cron 데몬입니다.

Feb 13, 2026, 09:45 PM UTC

에이전트 기반 텍스트-투-SQL 작업에서 소형 로컬 및 오픈라우터 모델의 벤치마크 결과

에이전트 기반 텍스트-투-SQL 작업에서 소형 로컬 및 오픈라우터 모델의 벤치마크 결과

한 개발자가 영어 쿼리를 SQL로 변환하는 디버깅 라운드를 포함한 맞춤형 에이전트 기반 텍스트-투-SQL 벤치마크를 사용하여 여러 소형 로컬 및 OpenRouter 모델을 테스트했습니다. 이 벤치마크는 25개의 질문을 포함하며 5분 이내에 실행되며, kimi-k2.5 및 Qwen 3.5 변형과 같은 최고 성능 모델을 보여줍니다.

Apr 17, 2026, 02:31 PM UTC