Benchmark Qwen3.5: Apple Silicon vs AMD ROCm vs Vulkan

Configuração de Hardware e Software

O benchmark comparou três sistemas: um MacBook Pro com Apple M5 Max (48GB de memória unificada), um Mac Studio com Apple M1 Max (64GB de memória unificada) e um servidor GPU Fedora 43 com processador Intel Core Ultra 7 265K e três GPUs AMD: Radeon Pro W7900 (48GB, RDNA 3), Radeon AI PRO R9700 (32GB, RDNA 4) e Radeon Pro W6800 (32GB, RDNA 2). A placa-mãe fornecia conexões elétricas x8/x8/x4, com a W6800 em um slot x4 conectado ao chipset limitado pelo link DMI.

Mecanismos de Inferência e Modelos

Os sistemas Apple usaram mlx-lm (versões 0.31.1 e 0.31.0). O servidor Fedora executou llama.cpp com ambas as compilações HIP/ROCm (b5065) e AMDVLK Vulkan (b5065). A versão ROCm era 7.2, a versão AMDVLK era 2025.Q2.1. Todas as execuções no Fedora usaram uma única GPU, exceto o modelo 122B que usou W7900 + R9700 com --split-mode layer.

Os modelos testados foram Qwen3.5-35B-A3B MoE (3B parâmetros ativos, mlx-community 4-bit ou unsloth Q4_K_M), Qwen3.5-27B denso (27B parâmetros, mlx-community 4-bit ou unsloth Q4_K_M) e Qwen3.5-122B-A10B MoE (10B parâmetros ativos, unsloth Q3_K_XL).

Metodologia do Benchmark

O benchmark refletiu casos de uso de análise de dados de farmacovigilância: escrever scripts de extração, raciocinar sobre dados clínicos, gerar narrativas regulatórias e extração estruturada de dados de texto clínico. Os prompts eram específicos do domínio, não benchmarks de LLM de propósito geral.

O benchmark padrão usou contexto de 8K com 7 prompts: 2 testes de processamento de prompt (entrada curta ~27 tokens e longa ~2.9K tokens com saída mínima para isolar a velocidade de preenchimento) e 5 tarefas de geração (codificação curta, codificação média, raciocínio matemático, escrita de narrativa de segurança regulatória, extração estruturada de AE). Usuário único, requisição única, temperatura 0.3, /no_think para desativar o modo de pensamento, sem cache de prompt entre requisições.

O benchmark de escalonamento de contexto usou o mesmo modelo e GPU com prompts progressivamente maiores (512 a 16K+ tokens) consistindo de listagens sintéticas de eventos adversos, com apenas 64 tokens de saída máxima para isolar como o processamento de prompt e geração escalam com o tamanho da entrada.

Principais Descobertas

O benchmark revelou descobertas interessantes sobre ROCm vs AMDVLK Vulkan, incluindo testes de escalonamento de contexto mostrando quando cada backend tem melhor desempenho. A fonte observa que a maioria das comparações disponíveis não ajuda a decidir entre configurações como um laptop M5 Max e uma estação de trabalho W7900, ou se o ROCm vale o trabalho de configuração em relação ao Vulkan.

📖 Read the full source: r/LocalLLaMA