Comparatif Qwen3.5 sur Apple Silicon vs AMD ROCm/Vulkan

Configuration matérielle et logicielle

Le benchmark a comparé trois systèmes : un MacBook Pro avec Apple M5 Max (48 Go de mémoire unifiée), un Mac Studio avec Apple M1 Max (64 Go de mémoire unifiée), et un serveur GPU Fedora 43 avec processeur Intel Core Ultra 7 265K et trois GPU AMD : Radeon Pro W7900 (48 Go, RDNA 3), Radeon AI PRO R9700 (32 Go, RDNA 4) et Radeon Pro W6800 (32 Go, RDNA 2). La carte mère offrait des connexions électriques x8/x8/x4, avec le W6800 sur un slot x4 connecté au chipset limité par le lien DMI.

Moteurs d'inférence et modèles

Les systèmes Apple utilisaient mlx-lm (versions 0.31.1 et 0.31.0). Le serveur Fedora exécutait llama.cpp avec les builds HIP/ROCm (b5065) et AMDVLK Vulkan (b5065). La version ROCm était 7.2, la version AMDVLK était 2025.Q2.1. Toutes les exécutions Fedora utilisaient un seul GPU sauf le modèle 122B qui utilisait W7900 + R9700 avec --split-mode layer.

Les modèles testés étaient Qwen3.5-35B-A3B MoE (3B paramètres actifs, mlx-community 4-bit ou unsloth Q4_K_M), Qwen3.5-27B dense (27B paramètres, mlx-community 4-bit ou unsloth Q4_K_M), et Qwen3.5-122B-A10B MoE (10B paramètres actifs, unsloth Q3_K_XL).

Méthodologie de benchmark

Le benchmark reflétait des cas d'usage d'analyse de données de pharmacovigilance : écriture de scripts d'extraction, raisonnement sur des données cliniques, génération de récits réglementaires, et extraction de données structurées à partir de textes cliniques. Les prompts étaient spécifiques au domaine, pas des benchmarks LLM généraux.

Le benchmark standard utilisait un contexte de 8K avec 7 prompts : 2 tests de traitement de prompt (entrée courte ~27 tokens et longue ~2,9K tokens avec sortie minimale pour isoler la vitesse de préremplissage) et 5 tâches de génération (codage court, codage moyen, raisonnement mathématique, écriture de récit de sécurité réglementaire, extraction structurée d'événements indésirables). Utilisateur unique, requête unique, température 0.3, /no_think pour désactiver le mode réflexion, pas de mise en cache de prompt entre les requêtes.

Le benchmark d'échelle de contexte utilisait le même modèle et GPU avec des prompts progressivement plus grands (512 à 16K+ tokens) composés de listes synthétiques d'événements indésirables, avec seulement 64 tokens de sortie maximum pour isoler comment le traitement de prompt et la génération évoluent avec la taille d'entrée.

Principales conclusions

Le benchmark a révélé des résultats intéressants entre ROCm et AMDVLK Vulkan, incluant des tests d'échelle de contexte montrant quand chaque backend performe le mieux. La source note que la plupart des comparaisons disponibles n'aident pas à décider entre des configurations comme un ordinateur portable M5 Max et une station de travail W7900, ou si ROCm vaut la peine de surmonter les difficultés d'installation par rapport à Vulkan.

📖 Read the full source: r/LocalLLaMA

Résultats de référence : Modèles Qwen3.5 sur silicium Apple vs GPU AMD avec ROCm vs Vulkan

Configuration matérielle et logicielle

Moteurs d'inférence et modèles

Méthodologie de benchmark

Principales conclusions

👀 See Also

Les agents d'IA ont besoin de primitives de restauration, pas seulement d'autonomie

Exploration de Step 3.5 Flash : Modèle Open-Source pour un Raisonnement Profond Rapide

Claude se connecte désormais à Adobe Creative Cloud, Blender, Ableton et plus encore

La conformité des instructions système de Claude se dégrade dans les conversations longues.