Движок вывода Atlas стал открытым: чистый Rust + CUDA, более 100 токенов/с на DGX Spark

✍️ OpenClawRadar📅 Опубликовано: 6 мая 2026 г.🔗 Source
Движок вывода Atlas стал открытым: чистый Rust + CUDA, более 100 токенов/с на DGX Spark
Ad

Движок Atlas, ранее показывавший 102 ток/с на Qwen3.5-35B на DGX Spark, теперь опубликован с открытым исходным кодом на GitHub. Написанный на чистом Rust и CUDA без PyTorch или Python runtime, Atlas поставляется в виде Docker-образа размером ~2,5 ГБ и имеет холодный старт менее 2 минут. Команда переписала весь стек от HTTP-обработчика до диспетчеризации ядер, чтобы устранить накладные расходы Python размером 20+ ГБ, которые были узким местом для GPU.

Ключевые показатели на DGX Spark (GB10)

  • Qwen3.5-35B (NVFP4, MTP K=2): пик 130 ток/с, устойчиво ~111 ток/с — в 3,0–3,3 раза быстрее vLLM на момент тестирования
  • Qwen3.5-122B (NVFP4, EP=2): ~50 ток/с декодирования
  • Qwen3-Next-80B-A3B (NVFP4, MTP): ~87 ток/с
  • Nemotron-3 Nano 30B (FP8): ~88 ток/с
  • Полная матрица моделей, включая MiniMax2.7, Qwen3.6, Gemma, доступна на сайте

Что делает Atlas особенным

  • Вручную настроенные ядра CUDA для Blackwell SM120/121: attention, MoE, GDN, Mamba-2 — без универсальных запасных вариантов
  • Нативная поддержка NVFP4 + FP8 на тензорных ядрах
  • Спекулятивное декодирование MTP (Multi-Token Prediction) для повышения пропускной способности декодирования до 3 раз
  • Совместимость с API OpenAI и Anthropic на одном порту — работает с Claude Code, Cline, OpenCode, Open WebUI из коробки
Ad

Быстрый старт

docker pull avarok/atlas-gb10:latest
sudo docker run -d --name atlas --network host --gpus all --ipc=host \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    avarok/atlas-gb10:latest serve Qwen/Qwen3.6-35B-A3B-FP8 \
    --port 8888 --speculative --enable-prefix-caching

План развития и сообщество

Команда работает над портом для Strix Halo совместно с Spectral Compute (оборудование предоставлено AMD), а также запланирован порт для RTX 6000 Pro Blackwell. План развития формируется сообществом — поддержка MiniMax M2.7 была добавлена по запросу из Discord. Atlas нацелен на качественную поддержку четырех чипов, а не на плохую поддержку двадцати.

Для пользователей без Spark текущая сборка работает только на DGX Spark, но код открыт для адаптации.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Плагин с открытым исходным кодом для Claude создает интерактивные визуальные тюнеры с живым предпросмотром.
Инструменты

Плагин с открытым исходным кодом для Claude создает интерактивные визуальные тюнеры с живым предпросмотром.

Разработчик создал плагин с открытым исходным кодом, который позволяет Claude Code генерировать отдельные HTML-страницы с ползунками и бесконечными холстами в стиле Figma для точной настройки значений CSS. Плагин читает исходные файлы, воспроизводит элементы на интерактивном холсте и предоставляет элементы управления для точной корректировки с живым предпросмотром.

OpenClawRadar
Два инструмента MCP для Claude Code: Проверка идей и Память торгового агента
Инструменты

Два инструмента MCP для Claude Code: Проверка идей и Память торгового агента

Разработчик создал два инструмента MCP для Claude Code: idea-reality-mcp проверяет GitHub и Hacker News перед началом программирования, чтобы избежать дублирования, а tradememory-protocol предоставляет память для торговых ИИ-агентов, позволяя сохранять сделки с контекстом и отслеживать эффективность стратегий. Оба инструмента имеют открытый исходный код и доступны на PyPI.

OpenClawRadar
GSD-Lite: Конечный автомат для кода Claude, обеспечивающий TDD и предотвращающий пропуск тестов
Инструменты

GSD-Lite: Конечный автомат для кода Claude, обеспечивающий TDD и предотвращающий пропуск тестов

GSD-Lite — это сервер MCP с открытым исходным кодом, который добавляет в Claude Code 12-шаговый рабочий процесс, обеспечивая разработку через тестирование с помощью специальных антирационализационных подсказок и раздельных контекстов агентов для выполнения, проверки и отладки.

OpenClawRadar
free-claude-code добавляет поддержку GLM-5 через NVIDIA NIM, расширяется до OpenRouter и Discord
Инструменты

free-claude-code добавляет поддержку GLM-5 через NVIDIA NIM, расширяется до OpenRouter и Discord

free-claude-code теперь поддерживает GLM-5 через бесплатный тариф NVIDIA NIM (40 запросов/мин) и добавляет интеграцию с OpenRouter, поддержку Discord-бота и совместимость с локальным провайдером LMStudio. Инструмент преобразует запросы API Claude Code от Anthropic для работы с альтернативными моделями.

OpenClawRadar