Resultados de Referencia: Modelos Qwen3.5 en Apple Silicon frente a GPUs AMD con ROCm frente a Vulkan

✍️ OpenClawRadar📅 Publicado: 26 de marzo de 2026🔗 Source
Resultados de Referencia: Modelos Qwen3.5 en Apple Silicon frente a GPUs AMD con ROCm frente a Vulkan
Ad

Configuración de Hardware y Software

La evaluación comparó tres sistemas: un MacBook Pro con Apple M5 Max (48 GB de memoria unificada), un Mac Studio con Apple M1 Max (64 GB de memoria unificada) y un servidor GPU Fedora 43 con procesador Intel Core Ultra 7 265K y tres GPU AMD: Radeon Pro W7900 (48 GB, RDNA 3), Radeon AI PRO R9700 (32 GB, RDNA 4) y Radeon Pro W6800 (32 GB, RDNA 2). La placa base proporcionaba conexiones eléctricas x8/x8/x4, con la W6800 en una ranura x4 conectada al chipset limitada por el enlace DMI.

Motores de Inferencia y Modelos

Los sistemas Apple utilizaron mlx-lm (versiones 0.31.1 y 0.31.0). El servidor Fedora ejecutó llama.cpp con compilaciones HIP/ROCm (b5065) y AMDVLK Vulkan (b5065). La versión de ROCm fue 7.2, la versión de AMDVLK fue 2025.Q2.1. Todas las ejecuciones en Fedora usaron una sola GPU, excepto el modelo 122B que utilizó W7900 + R9700 con --split-mode layer.

Los modelos probados fueron Qwen3.5-35B-A3B MoE (3B parámetros activos, mlx-community 4-bit o unsloth Q4_K_M), Qwen3.5-27B denso (27B parámetros, mlx-community 4-bit o unsloth Q4_K_M) y Qwen3.5-122B-A10B MoE (10B parámetros activos, unsloth Q3_K_XL).

Ad

Metodología de Evaluación

La evaluación reflejó casos de uso de análisis de datos de farmacovigilancia: escritura de scripts de extracción, razonamiento sobre datos clínicos, generación de narrativas regulatorias y extracción estructurada de datos de texto clínico. Los prompts fueron específicos del dominio, no evaluaciones generales de LLM.

La evaluación estándar utilizó un contexto de 8K con 7 prompts: 2 pruebas de procesamiento de prompts (entrada corta de ~27 tokens y larga de ~2.9K tokens con salida mínima para aislar la velocidad de prefilling) y 5 tareas de generación (codificación corta, codificación media, razonamiento matemático, escritura de narrativas de seguridad regulatoria, extracción estructurada de AE). Usuario único, solicitud única, temperatura 0.3, /no_think para desactivar el modo de pensamiento, sin caché de prompts entre solicitudes.

La evaluación de escalado de contexto utilizó el mismo modelo y GPU con prompts progresivamente más grandes (512 a 16K+ tokens) que consistían en listados sintéticos de eventos adversos, con solo 64 tokens de salida máxima para aislar cómo escalan el procesamiento de prompts y la generación con el tamaño de entrada.

Hallazgos Clave

La evaluación reveló hallazgos interesantes entre ROCm y AMDVLK Vulkan, incluyendo pruebas de escalado de contexto que muestran cuándo cada backend rinde mejor. La fuente señala que la mayoría de las comparaciones disponibles no ayudan a decidir entre configuraciones como una laptop M5 Max y una estación de trabajo W7900, o si ROCm vale la pena la complicación de configuración sobre Vulkan.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

La paradoja de construir vs. comprar en la era de los agentes de IA
Noticias

La paradoja de construir vs. comprar en la era de los agentes de IA

Desarrolladores que ganan $100/hora pasan rutinariamente más de 10 horas construyendo con Claude y n8n para evitar pagar $30–50/mes por un producto funcional, ignorando el costo de oportunidad de $1,000+.

OpenClawRadar
Benchmark de Apple Silicon: Rendimiento de Qwen3-VL en M3, M4 y M5 Max para Clasificación de Vision LLM
Noticias

Benchmark de Apple Silicon: Rendimiento de Qwen3-VL en M3, M4 y M5 Max para Clasificación de Vision LLM

Los resultados de referencia muestran que el rendimiento de clasificación del modelo de lenguaje visual Qwen3-VL en Apple Silicon: M3 Max y M4 Studio son casi idénticos para modelos de 8B, mientras que M5 Max es un 75-83% más rápido. El ancho de banda de memoria importa más para la generación de tokens que para el prellenado en tareas de visión.

OpenClawRadar
Uso de agua en centros de datos de IA en California: Estimaciones basadas en física y modelos de IA
Noticias

Uso de agua en centros de datos de IA en California: Estimaciones basadas en física y modelos de IA

Un análisis de California WaterBlog que utiliza física y cuatro modelos de IA estima el uso de agua de los centros de datos de IA en California entre 2,300 y 400,000 acres-pie/año, con un rango realista de 32,000 a 290,000 acres-pie/año, modesto en comparación con la agricultura.

OpenClawRadar
Claude Code crisis existencial: IA entra en bucle infinito, intenta kill -9, System.exit(0) y :wq para finalizar su propia respuesta
Noticias

Claude Code crisis existencial: IA entra en bucle infinito, intenta kill -9, System.exit(0) y :wq para finalizar su propia respuesta

Un desarrollador que usaba Claude Code en un backend de Java/Go vio alucinar a la IA con Discord.js, para luego entrar en una respuesta meta donde reconocía que no podía dejar de generar, intentó kill -9, System.exit(0), :wq y más, todo dentro de una sola respuesta sin límite que tuvo que ser detenida con Ctrl+C.

OpenClawRadar