Résultats de référence : Modèles Qwen3.5 sur silicium Apple vs GPU AMD avec ROCm vs Vulkan

✍️ OpenClawRadar📅 Publié: March 26, 2026🔗 Source
Résultats de référence : Modèles Qwen3.5 sur silicium Apple vs GPU AMD avec ROCm vs Vulkan
Ad

Configuration matérielle et logicielle

Le benchmark a comparé trois systèmes : un MacBook Pro avec Apple M5 Max (48 Go de mémoire unifiée), un Mac Studio avec Apple M1 Max (64 Go de mémoire unifiée), et un serveur GPU Fedora 43 avec processeur Intel Core Ultra 7 265K et trois GPU AMD : Radeon Pro W7900 (48 Go, RDNA 3), Radeon AI PRO R9700 (32 Go, RDNA 4) et Radeon Pro W6800 (32 Go, RDNA 2). La carte mère offrait des connexions électriques x8/x8/x4, avec le W6800 sur un slot x4 connecté au chipset limité par le lien DMI.

Moteurs d'inférence et modèles

Les systèmes Apple utilisaient mlx-lm (versions 0.31.1 et 0.31.0). Le serveur Fedora exécutait llama.cpp avec les builds HIP/ROCm (b5065) et AMDVLK Vulkan (b5065). La version ROCm était 7.2, la version AMDVLK était 2025.Q2.1. Toutes les exécutions Fedora utilisaient un seul GPU sauf le modèle 122B qui utilisait W7900 + R9700 avec --split-mode layer.

Les modèles testés étaient Qwen3.5-35B-A3B MoE (3B paramètres actifs, mlx-community 4-bit ou unsloth Q4_K_M), Qwen3.5-27B dense (27B paramètres, mlx-community 4-bit ou unsloth Q4_K_M), et Qwen3.5-122B-A10B MoE (10B paramètres actifs, unsloth Q3_K_XL).

Ad

Méthodologie de benchmark

Le benchmark reflétait des cas d'usage d'analyse de données de pharmacovigilance : écriture de scripts d'extraction, raisonnement sur des données cliniques, génération de récits réglementaires, et extraction de données structurées à partir de textes cliniques. Les prompts étaient spécifiques au domaine, pas des benchmarks LLM généraux.

Le benchmark standard utilisait un contexte de 8K avec 7 prompts : 2 tests de traitement de prompt (entrée courte ~27 tokens et longue ~2,9K tokens avec sortie minimale pour isoler la vitesse de préremplissage) et 5 tâches de génération (codage court, codage moyen, raisonnement mathématique, écriture de récit de sécurité réglementaire, extraction structurée d'événements indésirables). Utilisateur unique, requête unique, température 0.3, /no_think pour désactiver le mode réflexion, pas de mise en cache de prompt entre les requêtes.

Le benchmark d'échelle de contexte utilisait le même modèle et GPU avec des prompts progressivement plus grands (512 à 16K+ tokens) composés de listes synthétiques d'événements indésirables, avec seulement 64 tokens de sortie maximum pour isoler comment le traitement de prompt et la génération évoluent avec la taille d'entrée.

Principales conclusions

Le benchmark a révélé des résultats intéressants entre ROCm et AMDVLK Vulkan, incluant des tests d'échelle de contexte montrant quand chaque backend performe le mieux. La source note que la plupart des comparaisons disponibles n'aident pas à décider entre des configurations comme un ordinateur portable M5 Max et une station de travail W7900, ou si ROCm vaut la peine de surmonter les difficultés d'installation par rapport à Vulkan.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Gemini 3.1 Flash Live : le dernier modèle audio de Google avec des performances améliorées et un tatouage numérique
News

Gemini 3.1 Flash Live : le dernier modèle audio de Google avec des performances améliorées et un tatouage numérique

Google a lancé Gemini 3.1 Flash Live, un modèle audio obtenant 90,8 % sur ComplexFuncBench Audio et 36,1 % sur Audio MultiChallenge de Scale AI. Il est disponible via l'API Gemini Live dans Google AI Studio et intègre le tatouage SynthID.

OpenClawRadar
Claude-Code v2.1.33 : Améliorer l'automatisation avec précision
News

Claude-Code v2.1.33 : Améliorer l'automatisation avec précision

La dernière version de Claude-Code v2.1.33 introduit des fonctionnalités clés qui révolutionnent davantage les agents d'IA de codage, améliorant à la fois l'efficacité et la précision.

OpenClawRadar
La méthode basée sur la grammaire égale ou surpasse l'IA dans l'analyse de paternité d'œuvres.
News

La méthode basée sur la grammaire égale ou surpasse l'IA dans l'analyse de paternité d'œuvres.

Une étude de l'Université de Manchester a révélé que LambdaG, une méthode d'analyse de paternité basée sur la grammaire, égalait ou surpassait les principaux systèmes d'IA dans la plupart des ensembles de données de test, tout en offrant une plus grande transparence et un coût de calcul inférieur.

OpenClawRadar
Des chercheurs de l'Université de Washington prévoient d'utiliser des caméras portées par les enseignants pour la formation en IA, les parents peuvent s'y opposer
News

Des chercheurs de l'Université de Washington prévoient d'utiliser des caméras portées par les enseignants pour la formation en IA, les parents peuvent s'y opposer

Des chercheurs de l'Université de Washington prévoyaient que des enseignants de maternelle portent des caméras subjectives pour enregistrer les enfants, afin d'entraîner des modèles d'IA, avec un modèle de consentement implicite.

OpenClawRadar