Qwen3.5 Benchmarks: Apple Silicon vs AMD ROCm vs Vulkan

Configuración de Hardware y Software

La evaluación comparó tres sistemas: un MacBook Pro con Apple M5 Max (48 GB de memoria unificada), un Mac Studio con Apple M1 Max (64 GB de memoria unificada) y un servidor GPU Fedora 43 con procesador Intel Core Ultra 7 265K y tres GPU AMD: Radeon Pro W7900 (48 GB, RDNA 3), Radeon AI PRO R9700 (32 GB, RDNA 4) y Radeon Pro W6800 (32 GB, RDNA 2). La placa base proporcionaba conexiones eléctricas x8/x8/x4, con la W6800 en una ranura x4 conectada al chipset limitada por el enlace DMI.

Motores de Inferencia y Modelos

Los sistemas Apple utilizaron mlx-lm (versiones 0.31.1 y 0.31.0). El servidor Fedora ejecutó llama.cpp con compilaciones HIP/ROCm (b5065) y AMDVLK Vulkan (b5065). La versión de ROCm fue 7.2, la versión de AMDVLK fue 2025.Q2.1. Todas las ejecuciones en Fedora usaron una sola GPU, excepto el modelo 122B que utilizó W7900 + R9700 con --split-mode layer.

Los modelos probados fueron Qwen3.5-35B-A3B MoE (3B parámetros activos, mlx-community 4-bit o unsloth Q4_K_M), Qwen3.5-27B denso (27B parámetros, mlx-community 4-bit o unsloth Q4_K_M) y Qwen3.5-122B-A10B MoE (10B parámetros activos, unsloth Q3_K_XL).

Metodología de Evaluación

La evaluación reflejó casos de uso de análisis de datos de farmacovigilancia: escritura de scripts de extracción, razonamiento sobre datos clínicos, generación de narrativas regulatorias y extracción estructurada de datos de texto clínico. Los prompts fueron específicos del dominio, no evaluaciones generales de LLM.

La evaluación estándar utilizó un contexto de 8K con 7 prompts: 2 pruebas de procesamiento de prompts (entrada corta de ~27 tokens y larga de ~2.9K tokens con salida mínima para aislar la velocidad de prefilling) y 5 tareas de generación (codificación corta, codificación media, razonamiento matemático, escritura de narrativas de seguridad regulatoria, extracción estructurada de AE). Usuario único, solicitud única, temperatura 0.3, /no_think para desactivar el modo de pensamiento, sin caché de prompts entre solicitudes.

La evaluación de escalado de contexto utilizó el mismo modelo y GPU con prompts progresivamente más grandes (512 a 16K+ tokens) que consistían en listados sintéticos de eventos adversos, con solo 64 tokens de salida máxima para aislar cómo escalan el procesamiento de prompts y la generación con el tamaño de entrada.

Hallazgos Clave

La evaluación reveló hallazgos interesantes entre ROCm y AMDVLK Vulkan, incluyendo pruebas de escalado de contexto que muestran cuándo cada backend rinde mejor. La fuente señala que la mayoría de las comparaciones disponibles no ayudan a decidir entre configuraciones como una laptop M5 Max y una estación de trabajo W7900, o si ROCm vale la pena la complicación de configuración sobre Vulkan.

📖 Read the full source: r/LocalLLaMA

Resultados de Referencia: Modelos Qwen3.5 en Apple Silicon frente a GPUs AMD con ROCm frente a Vulkan

Configuración de Hardware y Software

Motores de Inferencia y Modelos

Metodología de Evaluación

Hallazgos Clave

👀 Ver también

Estado de salud del proyecto: Factor de autobús y actividad de confirmaciones en los repositorios de Claw/Assistant

Títulos de Sistema de Claude Code Actualizados: Nuevo Recordatorio de Modificación de Archivos y Aclaraciones de REPL, Recordatorio de Análisis de Malware Eliminado

Qwen3.6-27B cabe en una única GPU de 24GB, supera al anterior modelo MoE de 397B en SWE-bench

ThinkPad, 34 años de trayectoria: del IBM 700C a las estaciones de trabajo AI de Lenovo