Среда выполнения Krasis LLM демонстрирует ускорение предзаполнения в 8,9 раза и ускорение декодирования в 4,7 раза по сравнению с Llama.cpp.

Тесты производительности
Krasis демонстрирует значительное улучшение производительности по сравнению с llama.cpp при работе на аналогичном оборудовании. На одном GPU 5090, ограниченном PCIE 4.0, Krasis показывает:
- Предварительное заполнение в 8,9 раза быстрее
- Декодирование в 4,7 раза быстрее
Конкретные результаты тестов для Qwen3-Coder-Next показывают, что Krasis на одном GPU 5080 с 16 ГБ достигает:
- 1801 токенов/сек при предварительном заполнении
- 26,8 токенов/сек при декодировании
Это превосходит llama.cpp, работающий на GPU 5090 с 32 ГБ с выгрузкой слоёв.
Изменения в архитектуре
Последняя версия Krasis отказалась от системы двойного формата и теперь полностью выполняет как предварительное заполнение, так и декодирование на GPU с различными стратегиями оптимизации для каждой фазы. Это архитектурное изменение приводит к:
- Снижению требований к CPU
- Меньшей зависимости от скорости оперативной памяти системы
- Более низкому общему использованию оперативной памяти системы (теперь требуется только достаточно для квантованной модели плюс некоторый запас, по сравнению с предыдущим требованием в 2,5 раза больше модели)
Поддерживаемые модели и производительность
Текущие поддерживаемые модели с их производительностью на одном GPU 5090 (PCIE 4.0):
- Qwen3.5-35B-A3B: 4475 предварительное заполнение, 109,1 декодирование
- Qwen3-Coder-Next: 3560 предварительное заполнение, 70,3 декодирование
- Qwen3.5-122B-A10B: 2897 предварительное заполнение, 27,7 декодирование
- Qwen3-235B-A22B: 2124 предварительное заполнение, 9,3 декодирование
Планы будущей разработки
Разработчик планирует:
- Добавить поддержку моделей Nvidia Nemotron, в частности нацелившись на Nemotron Super для потребительских GPU, таких как 5080
- Возможно, поддержать более крупные модели Nemotron после их выпуска
- Расширить поддержку IDE и инструментов для Opencode и Aider
Текущие возможности
В настоящее время Krasis предлагает:
- Сервер, совместимый с OpenAI
- Установку одной командой
- Доступность на GitHub
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

CloudRouter предоставляет возможности AI-кодирующим агентам с управлением ВМ и GPU.
CloudRouter представляет собой инструмент CLI, который позволяет ИИ-агентам кодирования автономно запускать облачные ВМ и ГПУ, автоматизируя такие задачи, как проверка браузера и трудоемкие вычисления на ГПУ.

Atlarix v5.1 добавляет облачные уровни, сохраняя поддержку локального ИИ-кодирования.
Atlarix v5.1.0 представляет облачные тарифы Compass для немедленного использования, сохраняя полную поддержку Ollama и LM Studio. IDE использует постоянный граф SQLite под названием Blueprint для предоставления точного контекста локальным моделям.

Claude Octopus v8.48: Плагин для оркестрации нескольких ИИ в рабочих процессах разработки
Claude Octopus v8.48 — это плагин с открытым исходным кодом, который координирует параллельную работу моделей ИИ Claude, Codex и Gemini с различными ролями на разных этапах разработки. Он включает в себя порог консенсуса в 75% между фазами, новые контекстные окна для сложных задач и специальные команды, такие как /octo:embrace для полного цикла разработки.

Clavis MCP Server: Безопасное управление учетными данными для Claude Desktop
Clavis — это MCP-сервер, который управляет API-ключами и OAuth-токенами для Claude Desktop, храня учетные данные с шифрованием AES-256 и обеспечивая автоматическое обновление токенов, чтобы предотвратить ошибки из-за их истечения в середине разговора.