Сравнение Dual DGX Sparks и Mac Studio M3 Ultra: практический тест для локального запуска Qwen3.5 397B

✍️ OpenClawRadar📅 Опубликовано: 27 марта 2026 г.🔗 Source
Сравнение Dual DGX Sparks и Mac Studio M3 Ultra: практический тест для локального запуска Qwen3.5 397B
Ad

Сравнение оборудования для локального запуска Qwen3.5 397B

Разработчик тратил $2K в месяц на токены Claude API, прежде чем инвестировать $20K в локальное оборудование: Mac Studio M3 Ultra 512GB и настройку с двумя DGX Spark, каждый из которых стоил около $10K после налогов. Оба были протестированы при локальном запуске Qwen3.5 397B A17B.

Производительность Mac Studio M3 Ultra 512GB

С использованием 6-битной квантизации MLX, 323-гигабайтная модель загружалась в 512 ГБ унифицированной памяти. Скорость генерации составляла 30-40 токенов в секунду при пропускной способности памяти примерно 800 ГБ/с, что делало генерацию токенов плавной. Настройка была простой: установить mlx vlm и указать на модель. К слабым сторонам относились медленное предзаполнение (более 30 секунд на больших системных промптах) и снижение производительности при одновременном запуске пакетного эмбеддинга и инференса. Разработчику пришлось написать 500-строчный асинхронный прокси, потому что mlx vlm не парсит вызовы инструментов и не удаляет токены размышления нативно.

Производительность настройки с двумя DGX Spark

С использованием INT4 AutoRound квантизации, 98 ГБ загружались на узел на двух узлах по 128 ГБ через vLLM TP=2. Скорость генерации составляла 27-28 токенов в секунду. Настройка использовала тензорные ядра CUDA, ядра vLLM и тензорный параллелизм для более быстрого предзаполнения по сравнению с Mac Studio. Пакетный эмбеддинг, который занимал дни на MLX, завершался за часы на CUDA. Пропускная способность памяти составляла примерно 273 ГБ/с на узел, что ограничивало скорость генерации, несмотря на большее количество вычислений.

Сложности настройки были значительными: работал только один кабель QSFP (второй приводил к краху NCCL), IP-адрес Node2 был эфемерным, потолок использования памяти GPU составлял 0.88 (потребовался бинарный поиск для нахождения), каждая неверная догадка стоила 15 минут, пока перезагружались шарды контрольных точек, кеш страниц нужно было сбрасывать на обоих узлах перед каждой загрузкой модели, а некоторые блоки начинали троттлинг по температуре в течение 20 минут. Разработчик сообщил, что для достижения стабильности потребовались дни.

Ad

Архитектура и сценарий использования

Разработчик сохранил обе системы, используя Mac Studio только для инференса (полные 512 ГБ для модели и KV-кеша), а Sparks — для RAG, эмбеддинга, реранкинга и других задач. Они общаются через Tailscale. Это разделение предотвращает конкуренцию моделей эмбеддинга с основной моделью за память на Mac Studio, предоставляя им выделенные ресурсы CUDA на Sparks.

Сравнительные характеристики

  • Стоимость: Обе $10K
  • Память: Mac Studio 512 ГБ унифицированной vs. Sparks 256 ГБ (128×2)
  • Пропускная способность: Mac Studio ~800 ГБ/с vs. Sparks ~273 ГБ/с на узел
  • Квантизация: Mac Studio MLX 6-битная (323 ГБ) vs. Sparks INT4 AutoRound (98 ГБ/узел)
  • Скорость генерации: Mac Studio 30-40 токенов/с vs. Sparks 27-28 токенов/с
  • Макс. контекст: Mac Studio 256K токенов vs. Sparks 130K+ токенов
  • Настройка: Mac Studio простая, но требующая участия vs. Sparks сложная
  • Сильная сторона: Mac Studio пропускная способность vs. Sparks вычислительная мощность
  • Слабая сторона: Mac Studio вычислительная мощность vs. Sparks пропускная способность

Рекомендации

Mac Studio рекомендуется, если вы хотите, чтобы всё просто работало, цените пропускную способность 800 ГБ/с для плавной генерации и не планируете интенсивные задачи эмбеддинга вместе с инференсом. Двойные Sparks рекомендуются, если вы уверенно работаете с Linux и Docker, хотите нативно использовать CUDA и vLLM, планируете запускать RAG или эмбеддинг вместе с инференсом и готовы потратить дни на первоначальную настройку ради больших долгосрочных возможностей. Разработчик описывает Mac Studio как предоставляющий 80% опыта при 20% усилий, в то время как Sparks предлагают больше возможностей, но требуют реальных затрат времени на настройку.

Расчёт окупаемости: $2K/месяц расходов на API против $20K общего оборудования равняется 10 месяцам для выхода в ноль, после чего инференс становится бесплатным с полной приватностью.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Навык Claude для Devvit повышает точность генерации кода с 73% до 100%.
Инструменты

Навык Claude для Devvit повышает точность генерации кода с 73% до 100%.

Разработчик создал структурированный слой подсказок SKILL.md для Claude, который предоставляет контекст для платформы Devvit от Reddit, улучшив результаты оценки с 7/10 до 10/10 по типичным задачам Devvit за счет предотвращения конкретных ошибок времени выполнения.

OpenClawRadar
Сервер MCP с открытым исходным кодом добавляет встроенную память сессий для Claude Desktop.
Инструменты

Сервер MCP с открытым исходным кодом добавляет встроенную память сессий для Claude Desktop.

Разработчик создал сервер MCP на TypeScript со встроенной сессионной памятью для сохранения контекста между сеансами кодирования в Claude Desktop, устраняя необходимость в отдельной инфраструктуре памяти. Сервер включает функции сохранения/загрузки сессий и дополнительные инструменты, такие как интеграция с Brave Search и Google Gemini.

OpenClawRadar
2-промптовая система для переноса контекста между чатами Claude без потери токенов
Инструменты

2-промптовая система для переноса контекста между чатами Claude без потери токенов

Разработчик делится двумя подсказками для сжатия всего разговора с Клодом в структурированный блок контекста и загрузки его в новый чат, сохраняя решения, проделанную работу и следующие шаги.

OpenClawRadar
VibeIndex.ai: Поисковая платформа для 90K+ AI-навыков, MCP и плагинов с проверкой безопасности
Инструменты

VibeIndex.ai: Поисковая платформа для 90K+ AI-навыков, MCP и плагинов с проверкой безопасности

Корейский исследователь ИИ создал vibeindex.ai, доступный для поиска хаб, который индексирует более 90 000 навыков ИИ, серверов MCP и плагинов с ежечасными обновлениями и проверкой безопасности с помощью Cisco Skill Scanner по 17 категориям угроз.

OpenClawRadar