Benchmark-Ergebnisse: Qwen3.5-Modelle auf Apple Silicon im Vergleich zu AMD-GPUs mit ROCm und Vulkan

Hardware- und Software-Einrichtung
Der Benchmark verglich drei Systeme: ein MacBook Pro mit Apple M5 Max (48 GB Unified Memory), ein Mac Studio mit Apple M1 Max (64 GB Unified Memory) und einen Fedora 43 GPU-Server mit Intel Core Ultra 7 265K Prozessor und drei AMD GPUs: Radeon Pro W7900 (48 GB, RDNA 3), Radeon AI PRO R9700 (32 GB, RDNA 4) und Radeon Pro W6800 (32 GB, RDNA 2). Das Mainboard bot x8/x8/x4 elektrische Verbindungen, wobei die W6800 an einem über den Chipsatz verbundenen x4-Steckplatz durch den DMI-Link eingeschränkt war.
Inferenz-Engines und Modelle
Die Apple-Systeme verwendeten mlx-lm (Versionen 0.31.1 und 0.31.0). Der Fedora-Server lief mit llama.cpp sowohl mit HIP/ROCm-Build (b5065) als auch mit AMDVLK Vulkan-Build (b5065). ROCm-Version war 7.2, AMDVLK-Version war 2025.Q2.1. Alle Fedora-Läufe nutzten eine einzelne GPU, außer beim 122B-Modell, das W7900 + R9700 mit --split-mode layer verwendete.
Getestete Modelle waren Qwen3.5-35B-A3B MoE (3B aktive Parameter, mlx-community 4-bit oder unsloth Q4_K_M), Qwen3.5-27B dicht (27B Parameter, mlx-community 4-bit oder unsloth Q4_K_M) und Qwen3.5-122B-A10B MoE (10B aktive Parameter, unsloth Q3_K_XL).
Benchmark-Methodik
Der Benchmark spiegelte Anwendungsfälle der Pharmakovigilanz-Datenanalyse wider: Schreiben von Extraktionsskripten, Schlussfolgern über klinische Daten, Generieren regulatorischer Berichte und strukturierte Datenextraktion aus klinischen Texten. Die Prompts waren domänenspezifisch, keine allgemeinen LLM-Benchmarks.
Der Standard-Benchmark verwendete 8K Kontext mit 7 Prompts: 2 Prompt-Verarbeitungstests (kurze ~27 Token und lange ~2,9K Token Eingabe mit minimaler Ausgabe zur Isolierung der Prefill-Geschwindigkeit) und 5 Generierungsaufgaben (kurzes Coding, mittleres Coding, mathematisches Schlussfolgern, Schreiben regulatorischer Sicherheitsberichte, strukturierte AE-Extraktion). Einzelbenutzer, einzelne Anfrage, Temperatur 0,3, /no_think zum Deaktivieren des Denkmodus, kein Prompt-Caching zwischen Anfragen.
Der Kontextskalierungs-Benchmark verwendete dasselbe Modell und GPU mit progressiv größeren Prompts (512 bis 16K+ Token), bestehend aus synthetischen Nebenwirkungsauflistungen, mit nur 64 maximalen Ausgabe-Tokens, um zu isolieren, wie Prompt-Verarbeitung und Generierung mit der Eingabegröße skalieren.
Wesentliche Erkenntnisse
Der Benchmark zeigte interessante ROCm vs. AMDVLK Vulkan-Ergebnisse, einschließlich Kontextskalierungstests, die zeigen, wann jedes Backend am besten abschneidet. Die Quelle merkt an, dass die meisten verfügbaren Vergleiche nicht helfen, zwischen Konfigurationen wie einem M5 Max Laptop und einer W7900 Workstation zu entscheiden oder ob ROCm den Einrichtungsaufwand gegenüber Vulkan wert ist.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Claude fügt Gesprächen interaktive Diagramme und Grafiken direkt im Text hinzu.
Claude erstellt jetzt benutzerdefinierte Diagramme, Grafiken und Visualisierungen direkt in Chat-Konversationen, sodass Nutzer Visualisierungen anpassen und verändern können, während sich Diskussionen entwickeln. Die Funktion ist in der Beta-Version für alle Tariftypen verfügbar und erscheint inline anstatt in Seitenleisten.

Amazon-Mitarbeiter erfinden Beschäftigungstherapie, um KI-Nutzungsquoten zu erfüllen
Um interne Vorgaben zur Einführung von KI-Tools zu erfüllen, erfinden Amazon-Mitarbeiter Aufgaben, blähen Nutzungsstatistiken auf und manipulieren Metriken – ein Zeichen für eine fehlerhafte Umsetzung von KI-Einführungsrichtlinien.

Google unterzeichnet geheimen Pentagon-Vertrag für 'jede rechtmäßige' Nutzung von KI
Laut einem Bericht hat Google einen Geheimvertrag mit dem US-Verteidigungsministerium unterzeichnet, der es dem Militär erlaubt, die KI-Modelle des Unternehmens für „jeden rechtmäßigen Regierungszweck“ zu nutzen – mit Einschränkungen bei Massenüberwachung und autonomen Waffen, die jedoch nur eine unverbindliche Vereinbarung darstellen.

Claude Sonett 4.6 Enthüllt: Verbesserte Codierungs- und Computerverwendbarkeit
Claude Sonnet 4.6 führt ein Kontextfenster von 1 Million Token ein und verbessert die Fähigkeiten im Programmieren und der Computerbenutzung, was es zu einer starken Alternative zu Opus-Klasse-Modellen für ein breites Aufgabenspektrum macht.