Krasis LLM: ускорение в 8,9 раза против llama.cpp

Тесты производительности

Krasis демонстрирует значительное улучшение производительности по сравнению с llama.cpp при работе на аналогичном оборудовании. На одном GPU 5090, ограниченном PCIE 4.0, Krasis показывает:

Предварительное заполнение в 8,9 раза быстрее
Декодирование в 4,7 раза быстрее

Конкретные результаты тестов для Qwen3-Coder-Next показывают, что Krasis на одном GPU 5080 с 16 ГБ достигает:

1801 токенов/сек при предварительном заполнении
26,8 токенов/сек при декодировании

Это превосходит llama.cpp, работающий на GPU 5090 с 32 ГБ с выгрузкой слоёв.

Изменения в архитектуре

Последняя версия Krasis отказалась от системы двойного формата и теперь полностью выполняет как предварительное заполнение, так и декодирование на GPU с различными стратегиями оптимизации для каждой фазы. Это архитектурное изменение приводит к:

Снижению требований к CPU
Меньшей зависимости от скорости оперативной памяти системы
Более низкому общему использованию оперативной памяти системы (теперь требуется только достаточно для квантованной модели плюс некоторый запас, по сравнению с предыдущим требованием в 2,5 раза больше модели)

Поддерживаемые модели и производительность

Текущие поддерживаемые модели с их производительностью на одном GPU 5090 (PCIE 4.0):

Qwen3.5-35B-A3B: 4475 предварительное заполнение, 109,1 декодирование
Qwen3-Coder-Next: 3560 предварительное заполнение, 70,3 декодирование
Qwen3.5-122B-A10B: 2897 предварительное заполнение, 27,7 декодирование
Qwen3-235B-A22B: 2124 предварительное заполнение, 9,3 декодирование

Планы будущей разработки

Разработчик планирует:

Добавить поддержку моделей Nvidia Nemotron, в частности нацелившись на Nemotron Super для потребительских GPU, таких как 5080
Возможно, поддержать более крупные модели Nemotron после их выпуска
Расширить поддержку IDE и инструментов для Opencode и Aider

Текущие возможности

В настоящее время Krasis предлагает:

Сервер, совместимый с OpenAI
Установку одной командой
Доступность на GitHub

📖 Read the full source: r/LocalLLaMA

Среда выполнения Krasis LLM демонстрирует ускорение предзаполнения в 8,9 раза и ускорение декодирования в 4,7 раза по сравнению с Llama.cpp.

Тесты производительности

Изменения в архитектуре

Поддерживаемые модели и производительность

Планы будущей разработки

Текущие возможности

👀 Смотрите также

CloudRouter предоставляет возможности AI-кодирующим агентам с управлением ВМ и GPU.

Atlarix v5.1 добавляет облачные уровни, сохраняя поддержку локального ИИ-кодирования.

Claude Octopus v8.48: Плагин для оркестрации нескольких ИИ в рабочих процессах разработки

Clavis MCP Server: Безопасное управление учетными данными для Claude Desktop