Qwen3.5 Benchmark: Apple Silicon vs AMD ROCm/Vulkan

Hardware- und Software-Einrichtung

Der Benchmark verglich drei Systeme: ein MacBook Pro mit Apple M5 Max (48 GB Unified Memory), ein Mac Studio mit Apple M1 Max (64 GB Unified Memory) und einen Fedora 43 GPU-Server mit Intel Core Ultra 7 265K Prozessor und drei AMD GPUs: Radeon Pro W7900 (48 GB, RDNA 3), Radeon AI PRO R9700 (32 GB, RDNA 4) und Radeon Pro W6800 (32 GB, RDNA 2). Das Mainboard bot x8/x8/x4 elektrische Verbindungen, wobei die W6800 an einem über den Chipsatz verbundenen x4-Steckplatz durch den DMI-Link eingeschränkt war.

Inferenz-Engines und Modelle

Die Apple-Systeme verwendeten mlx-lm (Versionen 0.31.1 und 0.31.0). Der Fedora-Server lief mit llama.cpp sowohl mit HIP/ROCm-Build (b5065) als auch mit AMDVLK Vulkan-Build (b5065). ROCm-Version war 7.2, AMDVLK-Version war 2025.Q2.1. Alle Fedora-Läufe nutzten eine einzelne GPU, außer beim 122B-Modell, das W7900 + R9700 mit --split-mode layer verwendete.

Getestete Modelle waren Qwen3.5-35B-A3B MoE (3B aktive Parameter, mlx-community 4-bit oder unsloth Q4_K_M), Qwen3.5-27B dicht (27B Parameter, mlx-community 4-bit oder unsloth Q4_K_M) und Qwen3.5-122B-A10B MoE (10B aktive Parameter, unsloth Q3_K_XL).

Benchmark-Methodik

Der Benchmark spiegelte Anwendungsfälle der Pharmakovigilanz-Datenanalyse wider: Schreiben von Extraktionsskripten, Schlussfolgern über klinische Daten, Generieren regulatorischer Berichte und strukturierte Datenextraktion aus klinischen Texten. Die Prompts waren domänenspezifisch, keine allgemeinen LLM-Benchmarks.

Der Standard-Benchmark verwendete 8K Kontext mit 7 Prompts: 2 Prompt-Verarbeitungstests (kurze ~27 Token und lange ~2,9K Token Eingabe mit minimaler Ausgabe zur Isolierung der Prefill-Geschwindigkeit) und 5 Generierungsaufgaben (kurzes Coding, mittleres Coding, mathematisches Schlussfolgern, Schreiben regulatorischer Sicherheitsberichte, strukturierte AE-Extraktion). Einzelbenutzer, einzelne Anfrage, Temperatur 0,3, /no_think zum Deaktivieren des Denkmodus, kein Prompt-Caching zwischen Anfragen.

Der Kontextskalierungs-Benchmark verwendete dasselbe Modell und GPU mit progressiv größeren Prompts (512 bis 16K+ Token), bestehend aus synthetischen Nebenwirkungsauflistungen, mit nur 64 maximalen Ausgabe-Tokens, um zu isolieren, wie Prompt-Verarbeitung und Generierung mit der Eingabegröße skalieren.

Wesentliche Erkenntnisse

Der Benchmark zeigte interessante ROCm vs. AMDVLK Vulkan-Ergebnisse, einschließlich Kontextskalierungstests, die zeigen, wann jedes Backend am besten abschneidet. Die Quelle merkt an, dass die meisten verfügbaren Vergleiche nicht helfen, zwischen Konfigurationen wie einem M5 Max Laptop und einer W7900 Workstation zu entscheiden oder ob ROCm den Einrichtungsaufwand gegenüber Vulkan wert ist.

📖 Read the full source: r/LocalLLaMA

Benchmark-Ergebnisse: Qwen3.5-Modelle auf Apple Silicon im Vergleich zu AMD-GPUs mit ROCm und Vulkan

Hardware- und Software-Einrichtung

Inferenz-Engines und Modelle

Benchmark-Methodik

Wesentliche Erkenntnisse

👀 Siehe auch

KI steigert die Produktivität nicht, so eine aktuelle Studie unter CEOs.

Untersuchungen zeigen, dass die Persönlichkeit die Selbstkorrektur von Claude beeinflusst, nicht jedoch die von Llama oder Qwen.

Claude Agent SDK Abrechnungsänderungen ab 15. Juni: Guthaben pro Benutzer, keine Übertragung, harte Klippe

Anthropic übernimmt Vercept AI, um Claudes Computer-Nutzungsfähigkeiten zu erweitern