Dual DGX Sparks vs Mac Studio M3 Ultra: Comparación Práctica para Ejecutar Qwen3.5 397B Localmente

✍️ OpenClawRadar📅 Publicado: 27 de marzo de 2026🔗 Source
Dual DGX Sparks vs Mac Studio M3 Ultra: Comparación Práctica para Ejecutar Qwen3.5 397B Localmente
Ad

Comparación de Hardware para Qwen3.5 397B Local

Un desarrollador gastaba $2K/mes en tokens de la API de Claude antes de invertir $20K en total en hardware local: una Mac Studio M3 Ultra 512GB y una configuración dual DGX Spark, cada una costando alrededor de $10K después de impuestos. Ambos fueron probados ejecutando Qwen3.5 397B A17B localmente.

Rendimiento de la Mac Studio M3 Ultra 512GB

Usando cuantización de 6 bits MLX, el modelo de 323GB se cargó en 512GB de memoria unificada. La velocidad de generación fue de 30-40 tokens/segundo con un ancho de banda de memoria de aproximadamente 800 GB/s, haciendo que la generación de tokens se sintiera fluida. La configuración fue fácil: instalar mlx vlm y apuntarlo al modelo. Las debilidades incluyeron prefilling lento (más de 30 segundos en prompts de sistema grandes) y degradación del rendimiento al ejecutar embedding por lotes junto con inferencia. El desarrollador tuvo que escribir un proxy asíncrono de 500 líneas porque mlx vlm no analiza llamadas de herramientas ni elimina tokens de pensamiento de forma nativa.

Rendimiento de la Configuración Dual DGX Spark

Usando cuantización INT4 AutoRound, 98GB se cargaron por nodo a través de dos nodos de 128GB mediante vLLM TP=2. La velocidad de generación fue de 27-28 tokens/segundo. La configuración aprovechó núcleos tensor CUDA, kernels vLLM y paralelismo de tensores para un prefilling más rápido que la Mac Studio. El embedding por lotes que tomaba días en MLX se completó en horas en CUDA. El ancho de banda de memoria fue de aproximadamente 273 GB/s por nodo, limitando la velocidad de generación a pesar de tener más capacidad de cómputo.

Los desafíos de configuración fueron significativos: solo un cable QSFP funcionó (el segundo bloqueó NCCL), la IP del Nodo2 era efímera, el límite de utilización de memoria GPU era 0.88 (requiriendo búsqueda binaria para encontrar), cada suposición incorrecta costaba 15 minutos mientras se recargaban los fragmentos del checkpoint, la caché de página necesitaba vaciarse en ambos nodos antes de cada carga del modelo, y algunas unidades limitaron térmicamente en 20 minutos. El desarrollador reportó que tomó días lograr estabilidad.

Ad

Arquitectura y Caso de Uso

El desarrollador mantuvo ambos sistemas, usando la Mac Studio solo para inferencia (512GB completos para el modelo y caché KV) y las Sparks para RAG, embedding, reranking y otras tareas. Se comunican a través de Tailscale. Esta separación evita que los modelos de embedding compitan con el modelo principal por memoria en la Mac Studio mientras les da recursos CUDA dedicados en las Sparks.

Especificaciones Cara a Cara

  • Costo: Ambos $10K
  • Memoria: Mac Studio 512GB unificada vs. Sparks 256GB (128×2)
  • Ancho de banda: Mac Studio ~800 GB/s vs. Sparks ~273 GB/s por nodo
  • Cuantización: Mac Studio MLX 6-bit (323GB) vs. Sparks INT4 AutoRound (98GB/nodo)
  • Velocidad de Generación: Mac Studio 30-40 tok/s vs. Sparks 27-28 tok/s
  • Contexto Máximo: Mac Studio 256K tokens vs. Sparks 130K+ tokens
  • Configuración: Mac Studio fácil pero práctica vs. Sparks difícil
  • Fortaleza: Mac Studio ancho de banda vs. Sparks capacidad de cómputo
  • Debilidad: Mac Studio capacidad de cómputo vs. Sparks ancho de banda

Recomendaciones

La Mac Studio se recomienda si quieres que simplemente funcione, valoras 800 GB/s de ancho de banda para generación fluida, y no planeas cargas de trabajo pesadas de embedding junto con inferencia. Las Sparks duales se recomiendan si te sientes cómodo con Linux y Docker, quieres CUDA y vLLM de forma nativa, planeas ejecutar RAG o embedding junto con inferencia, y estás dispuesto a pasar días en la configuración inicial para obtener más capacidad a largo plazo. El desarrollador describe la Mac Studio como proporcionando el 80% de la experiencia con el 20% del esfuerzo, mientras que las Sparks ofrecen más capacidad pero extraen un costo real en tiempo de configuración.

Cálculo de punto de equilibrio: gasto de $2K/mes en API vs. $20K total en hardware equivale a 10 meses para alcanzar el punto de equilibrio, después de lo cual la inferencia es gratuita con privacidad completa.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

ClamBot: Agente de IA Ejecuta Código Generado por LLM en Sandbox WASM para Seguridad
Herramientas

ClamBot: Agente de IA Ejecuta Código Generado por LLM en Sandbox WASM para Seguridad

ClamBot es un framework de agente de IA que ejecuta todo el código generado por LLM en un sandbox de WebAssembly usando QuickJS en Wasmtime, eliminando la necesidad de llamadas exec() o subprocess. Incluye una puerta de aprobación para llamadas a herramientas, almacenamiento persistente de scripts como 'clams', y soporta múltiples proveedores de LLM.

OpenClawRadar
harshal-mcp-proxy ahora en npm: un solo daemon reemplaza 12 configuraciones de servidor MCP
Herramientas

harshal-mcp-proxy ahora en npm: un solo daemon reemplaza 12 configuraciones de servidor MCP

harshal-mcp-proxy ya está disponible como paquete npm de 54 kB. Instálelo globalmente, ejecútelo como un daemon y reemplace 12 configuraciones separadas de servidores MCP con 6 herramientas, ahorrando aproximadamente 2.7 GB de RAM y ~50K tokens por sesión.

OpenClawRadar
TradesMCP: Servidor MCP de Código Abierto para Verificación de Licencias de Contratistas y Datos de Construcción
Herramientas

TradesMCP: Servidor MCP de Código Abierto para Verificación de Licencias de Contratistas y Datos de Construcción

TradesMCP es un servidor de Protocolo de Contexto de Modelo de código abierto que proporciona a Claude acceso a datos reales de licencias de contratistas, permisos de construcción, precios de materiales y tarifas laborales. La herramienta verificó correctamente una licencia activa de contratista en California donde ChatGPT devolvió información incorrecta.

OpenClawRadar
Google Workspace CLI incluye la guía de configuración de OpenClaw en la documentación.
Herramientas

Google Workspace CLI incluye la guía de configuración de OpenClaw en la documentación.

La nueva documentación de gws (Google Workspace CLI) menciona explícitamente la configuración de OpenClaw por su nombre en una sección dedicada a habilidades de agentes de IA. Esto sigue a discusiones recientes sobre Google revisando suspensiones de cuentas para agentes de IA.

OpenClawRadar