Krasis: гибридная среда выполнения для больших моделей MoE на CPU/GPU демонстрирует скорость предзаполнения 3,324 ток/с на RTX 5080

✍️ OpenClawRadar📅 Опубликовано: 27 февраля 2026 г.🔗 Source

Krasis — это гибридная среда выполнения CPU/GPU, специально разработанная для больших моделей типа Mixture-of-Experts (MoE). Основной подход заключается в использовании GPU для вычислительно затратной фазы предварительного заполнения, в то время как CPU обрабатывает декодирование, а оперативная память системы обеспечивает дополнительную ёмкость для максимальной производительности.

Результаты тестирования

Конфигурация RTX 5080:

Оборудование: AMD 5900X, DDR4-3200, 1x RTX 5080 16GB, PCIe 4.0 x16
Qwen3-Coder-Next (80B) Q4: 3324 ток/с предварительное заполнение, 9,7 с TTFT (контекст 35K), 14,9 ток/с декодирование

Конфигурация EPYC:

Оборудование: AMD EPYC 7742 (64 ядра), DDR4-2666 8-канальная, 1x RTX 2000 Ada 16GB, PCIe 4.0 x8
Qwen3-Coder-Next (80B) Q4: 1060 ток/с предварительное заполнение, 18,9 с TTFT, 15,8 ток/с декодирование
Qwen3-Coder-Next (80B) Q8: 873 ток/с предварительное заполнение, 40,1 с TTFT, 12,4 ток/с декодирование
Qwen3.5-35B-A3B Q4: 1374 ток/с предварительное заполнение, 14,6 с TTFT, 15,0 ток/с декодирование
Qwen3-235B-A22B Q4: 289 ток/с предварительное заполнение, 69,1 с TTFT, 3,4 ток/с декодирование
DeepSeek V2-Lite (16B) Q4: 1477 ток/с предварительное заполнение, 13,6 с TTFT, 20,2 ток/с декодирование
DeepSeek V2-Lite (16B) Q8: 1317 ток/с предварительное заполнение, 15,2 с TTFT, 17,8 ток/с декодирование

Тестирование проводилось с промптами от 10K до 50K токенов для предварительного заполнения (лучшие результаты из 20K/35K/50K) и генерацией 64 токенов для декодирования (среднее из 3 запусков).

Как это работает

В отличие от стандартных сред выполнения, которые выгружают на GPU только несколько слоёв и запускают большую часть модели на CPU, Krasis рассматривает GPU как потоковый вычислительный движок. Он пропускает модель через видеопамять как можно быстрее, скрывая передачу данных под параллельными вычислениями. GPU обрабатывает полный проход предварительного заполнения, затем CPU занимается декодированием.

Компромиссы

Требует много оперативной памяти: необходимо примерно в 2,5 раза больше оперативной памяти, чем весят квантованные веса модели (например, ~100 ГБ для Qwen3-Coder-Next в Q4)
Только для карт NVIDIA
Специально ориентирована на модели MoE (декодирование на плотных моделях будет медленным)
Первый запуск медленный из-за предварительной обработки и кэширования
Требует много места на диске: необходим исходный файл BF16 safetensors, а также хранятся кэшированные преобразованные модели (~2x размера квантованной модели)

Поддерживаемые модели

Qwen3-Coder-Next (наиболее тщательно протестирована), Qwen3.5-35B-A3B, Qwen3-235B-A22B и DeepSeek V2-Lite. Другие модели появятся в ближайшее время.

Технические детали

Написана на Rust + Python (для оркестрации)
Совместимый с OpenAI API (работает с Cursor, OpenCode и т.д.)
Интерактивный лаунчер для настройки
Лицензия SSPL (бесплатно для использования, изменения, распространения)
GitHub: https://github.com/brontoguana/krasis

Разработчик ищет отзывы о том, какие модели поддерживать дальше, мнения о компромиссах и результаты тестирования от пользователей с картами 5-й серии и PCIe 5.0.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Инструменты

Kios: Читалка для iOS для самостоятельно размещённых библиотек Kobo/Calibre с синхронизацией прогресса

Kios — это iOS-приложение для чтения книг с самостоятельных серверов Kobo/Calibre с синхронизацией прогресса через протокол Kobo, OPDS 1.2/2.0 и kosync. Создано с помощью Claude.

20 июн. 2026 г., 12:17 UTC

OpenClawRadar

Инструменты

Разработчик создал доску вакансий в сфере ИИ/МО, используя Claude Code для дизайна и SEO.

Разработчик создал MOAIJobs.com — бесплатный сайт, который курирует вакансии в области ИИ/машинного обучения от ведущих лабораторий и компаний с возможностью фильтрации по категориям, местоположению и зарплате. Дизайн сайта и техническая SEO-оптимизация были выполнены Claude Code на основе предоставленных разработчиком референсов и пояснений.

26 мар. 2026 г., 19:45 UTC

OpenClawRadar

Инструменты

Покемон Шоудаун ИИ-агенты, созданные с использованием бесплатных LLM API и вызова инструментов

Система, использующая Llama 3, Qwen, Gemma через бесплатные API-уровни для автономного ведения боев в Pokémon Showdown с помощью структурированных вызовов инструментов, поддерживает режимы «человек против ИИ» и «ИИ против ИИ».

1 мая 2026 г., 00:20 UTC

OpenClawRadar

Инструменты

Semble: Поиск кода для ИИ-агентов, использующий на 98% меньше токенов, чем grep+read

Semble — это библиотека поиска кода с открытым исходным кодом для AI-агентов, которая объединяет статические эмбеддинги Model2Vec с BM25 и работает полностью на CPU. Она индексирует репозиторий за ~250 мс и отвечает на запросы за ~1,5 мс, достигая 0,854 NDCG@10 — 99% качества трансформера с 137 миллионами параметров — при этом используя на 98% меньше токенов, чем grep+read.

17 мая 2026 г., 20:15 UTC

OpenClawRadar