Среда выполнения Krasis LLM демонстрирует ускорение предзаполнения в 8,9 раза и ускорение декодирования в 4,7 раза по сравнению с Llama.cpp.

✍️ OpenClawRadar📅 Опубликовано: 17 марта 2026 г.🔗 Source
Среда выполнения Krasis LLM демонстрирует ускорение предзаполнения в 8,9 раза и ускорение декодирования в 4,7 раза по сравнению с Llama.cpp.
Ad

Тесты производительности

Krasis демонстрирует значительное улучшение производительности по сравнению с llama.cpp при работе на аналогичном оборудовании. На одном GPU 5090, ограниченном PCIE 4.0, Krasis показывает:

  • Предварительное заполнение в 8,9 раза быстрее
  • Декодирование в 4,7 раза быстрее

Конкретные результаты тестов для Qwen3-Coder-Next показывают, что Krasis на одном GPU 5080 с 16 ГБ достигает:

  • 1801 токенов/сек при предварительном заполнении
  • 26,8 токенов/сек при декодировании

Это превосходит llama.cpp, работающий на GPU 5090 с 32 ГБ с выгрузкой слоёв.

Изменения в архитектуре

Последняя версия Krasis отказалась от системы двойного формата и теперь полностью выполняет как предварительное заполнение, так и декодирование на GPU с различными стратегиями оптимизации для каждой фазы. Это архитектурное изменение приводит к:

  • Снижению требований к CPU
  • Меньшей зависимости от скорости оперативной памяти системы
  • Более низкому общему использованию оперативной памяти системы (теперь требуется только достаточно для квантованной модели плюс некоторый запас, по сравнению с предыдущим требованием в 2,5 раза больше модели)
Ad

Поддерживаемые модели и производительность

Текущие поддерживаемые модели с их производительностью на одном GPU 5090 (PCIE 4.0):

  • Qwen3.5-35B-A3B: 4475 предварительное заполнение, 109,1 декодирование
  • Qwen3-Coder-Next: 3560 предварительное заполнение, 70,3 декодирование
  • Qwen3.5-122B-A10B: 2897 предварительное заполнение, 27,7 декодирование
  • Qwen3-235B-A22B: 2124 предварительное заполнение, 9,3 декодирование

Планы будущей разработки

Разработчик планирует:

  • Добавить поддержку моделей Nvidia Nemotron, в частности нацелившись на Nemotron Super для потребительских GPU, таких как 5080
  • Возможно, поддержать более крупные модели Nemotron после их выпуска
  • Расширить поддержку IDE и инструментов для Opencode и Aider

Текущие возможности

В настоящее время Krasis предлагает:

  • Сервер, совместимый с OpenAI
  • Установку одной командой
  • Доступность на GitHub

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

CloudRouter предоставляет возможности AI-кодирующим агентам с управлением ВМ и GPU.
Инструменты

CloudRouter предоставляет возможности AI-кодирующим агентам с управлением ВМ и GPU.

CloudRouter представляет собой инструмент CLI, который позволяет ИИ-агентам кодирования автономно запускать облачные ВМ и ГПУ, автоматизируя такие задачи, как проверка браузера и трудоемкие вычисления на ГПУ.

OpenClawRadar
Atlarix v5.1 добавляет облачные уровни, сохраняя поддержку локального ИИ-кодирования.
Инструменты

Atlarix v5.1 добавляет облачные уровни, сохраняя поддержку локального ИИ-кодирования.

Atlarix v5.1.0 представляет облачные тарифы Compass для немедленного использования, сохраняя полную поддержку Ollama и LM Studio. IDE использует постоянный граф SQLite под названием Blueprint для предоставления точного контекста локальным моделям.

OpenClawRadar
Claude Octopus v8.48: Плагин для оркестрации нескольких ИИ в рабочих процессах разработки
Инструменты

Claude Octopus v8.48: Плагин для оркестрации нескольких ИИ в рабочих процессах разработки

Claude Octopus v8.48 — это плагин с открытым исходным кодом, который координирует параллельную работу моделей ИИ Claude, Codex и Gemini с различными ролями на разных этапах разработки. Он включает в себя порог консенсуса в 75% между фазами, новые контекстные окна для сложных задач и специальные команды, такие как /octo:embrace для полного цикла разработки.

OpenClawRadar
Clavis MCP Server: Безопасное управление учетными данными для Claude Desktop
Инструменты

Clavis MCP Server: Безопасное управление учетными данными для Claude Desktop

Clavis — это MCP-сервер, который управляет API-ключами и OAuth-токенами для Claude Desktop, храня учетные данные с шифрованием AES-256 и обеспечивая автоматическое обновление токенов, чтобы предотвратить ошибки из-за их истечения в середине разговора.

OpenClawRadar