Krasis: гибридная среда выполнения для больших моделей MoE на CPU/GPU демонстрирует скорость предзаполнения 3,324 ток/с на RTX 5080

✍️ OpenClawRadar📅 Опубликовано: 27 февраля 2026 г.🔗 Source
Krasis: гибридная среда выполнения для больших моделей MoE на CPU/GPU демонстрирует скорость предзаполнения 3,324 ток/с на RTX 5080
Ad

Krasis — это гибридная среда выполнения CPU/GPU, специально разработанная для больших моделей типа Mixture-of-Experts (MoE). Основной подход заключается в использовании GPU для вычислительно затратной фазы предварительного заполнения, в то время как CPU обрабатывает декодирование, а оперативная память системы обеспечивает дополнительную ёмкость для максимальной производительности.

Результаты тестирования

Конфигурация RTX 5080:

  • Оборудование: AMD 5900X, DDR4-3200, 1x RTX 5080 16GB, PCIe 4.0 x16
  • Qwen3-Coder-Next (80B) Q4: 3324 ток/с предварительное заполнение, 9,7 с TTFT (контекст 35K), 14,9 ток/с декодирование

Конфигурация EPYC:

  • Оборудование: AMD EPYC 7742 (64 ядра), DDR4-2666 8-канальная, 1x RTX 2000 Ada 16GB, PCIe 4.0 x8
  • Qwen3-Coder-Next (80B) Q4: 1060 ток/с предварительное заполнение, 18,9 с TTFT, 15,8 ток/с декодирование
  • Qwen3-Coder-Next (80B) Q8: 873 ток/с предварительное заполнение, 40,1 с TTFT, 12,4 ток/с декодирование
  • Qwen3.5-35B-A3B Q4: 1374 ток/с предварительное заполнение, 14,6 с TTFT, 15,0 ток/с декодирование
  • Qwen3-235B-A22B Q4: 289 ток/с предварительное заполнение, 69,1 с TTFT, 3,4 ток/с декодирование
  • DeepSeek V2-Lite (16B) Q4: 1477 ток/с предварительное заполнение, 13,6 с TTFT, 20,2 ток/с декодирование
  • DeepSeek V2-Lite (16B) Q8: 1317 ток/с предварительное заполнение, 15,2 с TTFT, 17,8 ток/с декодирование

Тестирование проводилось с промптами от 10K до 50K токенов для предварительного заполнения (лучшие результаты из 20K/35K/50K) и генерацией 64 токенов для декодирования (среднее из 3 запусков).

Ad

Как это работает

В отличие от стандартных сред выполнения, которые выгружают на GPU только несколько слоёв и запускают большую часть модели на CPU, Krasis рассматривает GPU как потоковый вычислительный движок. Он пропускает модель через видеопамять как можно быстрее, скрывая передачу данных под параллельными вычислениями. GPU обрабатывает полный проход предварительного заполнения, затем CPU занимается декодированием.

Компромиссы

  • Требует много оперативной памяти: необходимо примерно в 2,5 раза больше оперативной памяти, чем весят квантованные веса модели (например, ~100 ГБ для Qwen3-Coder-Next в Q4)
  • Только для карт NVIDIA
  • Специально ориентирована на модели MoE (декодирование на плотных моделях будет медленным)
  • Первый запуск медленный из-за предварительной обработки и кэширования
  • Требует много места на диске: необходим исходный файл BF16 safetensors, а также хранятся кэшированные преобразованные модели (~2x размера квантованной модели)

Поддерживаемые модели

Qwen3-Coder-Next (наиболее тщательно протестирована), Qwen3.5-35B-A3B, Qwen3-235B-A22B и DeepSeek V2-Lite. Другие модели появятся в ближайшее время.

Технические детали

  • Написана на Rust + Python (для оркестрации)
  • Совместимый с OpenAI API (работает с Cursor, OpenCode и т.д.)
  • Интерактивный лаунчер для настройки
  • Лицензия SSPL (бесплатно для использования, изменения, распространения)
  • GitHub: https://github.com/brontoguana/krasis

Разработчик ищет отзывы о том, какие модели поддерживать дальше, мнения о компромиссах и результаты тестирования от пользователей с картами 5-й серии и PCIe 5.0.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Использование двух агентов Claude Code в одном репозитории с помощью Git Worktrees
Инструменты

Использование двух агентов Claude Code в одном репозитории с помощью Git Worktrees

Пользователь Reddit рассказывает, как запустить несколько агентов Claude Code параллельно в одной кодовой базе, используя git worktrees, избегая конфликтов файлов и обеспечивая независимые сеансы агентов.

OpenClawRadar
mcp-optimizer сокращает потери токенов от простаивающих MCP-серверов в Claude Code
Инструменты

mcp-optimizer сокращает потери токенов от простаивающих MCP-серверов в Claude Code

mcp-optimizer — это плагин, который решает проблему напрасной траты токенов от MCP-серверов в Claude Code, анализируя использование инструментов и генерируя оптимизированные конфигурации. Он включает четыре утилиты: mcp-doctor для проверки состояния серверов, mcp-audit для анализа использования, mcp-optimize для создания локальных конфигураций проекта и mcp-to-skills для преобразования инструментов в Skills по запросу.

OpenClawRadar
Методология с открытым исходным кодом для агентного партнерства ИИ с Claude
Инструменты

Методология с открытым исходным кодом для агентного партнерства ИИ с Claude

Разработчик опубликовал статью на 25 000 слов и выложил в открытый доступ шаблоны для создания системы постоянного партнёрства с Claude, которая использует общую память между сессиями, когнитивный мониторинг и консультации с несколькими ИИ.

OpenClawRadar
Сервер LocalSynapse MCP позволяет Claude искать в локальных документах без подключения к интернету.
Инструменты

Сервер LocalSynapse MCP позволяет Claude искать в локальных документах без подключения к интернету.

LocalSynapse — это MCP-сервер, который индексирует и выполняет поиск по локальным документам (Word, Excel, PowerPoint, PDF) с использованием гибридного поиска BM25 + AI семантического поиска. Всё работает локально, без необходимости облачных сервисов или API-ключей.

OpenClawRadar