Resultados de Benchmark: Modelos Qwen3.5 em Apple Silicon vs GPUs AMD com ROCm vs Vulkan

✍️ OpenClawRadar📅 Publicado: March 26, 2026🔗 Source
Resultados de Benchmark: Modelos Qwen3.5 em Apple Silicon vs GPUs AMD com ROCm vs Vulkan
Ad

Configuração de Hardware e Software

O benchmark comparou três sistemas: um MacBook Pro com Apple M5 Max (48GB de memória unificada), um Mac Studio com Apple M1 Max (64GB de memória unificada) e um servidor GPU Fedora 43 com processador Intel Core Ultra 7 265K e três GPUs AMD: Radeon Pro W7900 (48GB, RDNA 3), Radeon AI PRO R9700 (32GB, RDNA 4) e Radeon Pro W6800 (32GB, RDNA 2). A placa-mãe fornecia conexões elétricas x8/x8/x4, com a W6800 em um slot x4 conectado ao chipset limitado pelo link DMI.

Mecanismos de Inferência e Modelos

Os sistemas Apple usaram mlx-lm (versões 0.31.1 e 0.31.0). O servidor Fedora executou llama.cpp com ambas as compilações HIP/ROCm (b5065) e AMDVLK Vulkan (b5065). A versão ROCm era 7.2, a versão AMDVLK era 2025.Q2.1. Todas as execuções no Fedora usaram uma única GPU, exceto o modelo 122B que usou W7900 + R9700 com --split-mode layer.

Os modelos testados foram Qwen3.5-35B-A3B MoE (3B parâmetros ativos, mlx-community 4-bit ou unsloth Q4_K_M), Qwen3.5-27B denso (27B parâmetros, mlx-community 4-bit ou unsloth Q4_K_M) e Qwen3.5-122B-A10B MoE (10B parâmetros ativos, unsloth Q3_K_XL).

Ad

Metodologia do Benchmark

O benchmark refletiu casos de uso de análise de dados de farmacovigilância: escrever scripts de extração, raciocinar sobre dados clínicos, gerar narrativas regulatórias e extração estruturada de dados de texto clínico. Os prompts eram específicos do domínio, não benchmarks de LLM de propósito geral.

O benchmark padrão usou contexto de 8K com 7 prompts: 2 testes de processamento de prompt (entrada curta ~27 tokens e longa ~2.9K tokens com saída mínima para isolar a velocidade de preenchimento) e 5 tarefas de geração (codificação curta, codificação média, raciocínio matemático, escrita de narrativa de segurança regulatória, extração estruturada de AE). Usuário único, requisição única, temperatura 0.3, /no_think para desativar o modo de pensamento, sem cache de prompt entre requisições.

O benchmark de escalonamento de contexto usou o mesmo modelo e GPU com prompts progressivamente maiores (512 a 16K+ tokens) consistindo de listagens sintéticas de eventos adversos, com apenas 64 tokens de saída máxima para isolar como o processamento de prompt e geração escalam com o tamanho da entrada.

Principais Descobertas

O benchmark revelou descobertas interessantes sobre ROCm vs AMDVLK Vulkan, incluindo testes de escalonamento de contexto mostrando quando cada backend tem melhor desempenho. A fonte observa que a maioria das comparações disponíveis não ajuda a decidir entre configurações como um laptop M5 Max e uma estação de trabalho W7900, ou se o ROCm vale o trabalho de configuração em relação ao Vulkan.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Agentes de IA que não reduzem custos de manutenção afundarão sua equipe
News

Agentes de IA que não reduzem custos de manutenção afundarão sua equipe

James Shore argumenta que dobrar a velocidade de codificação com IA sem reduzir pela metade os custos de manutenção leva à perda líquida de produtividade em poucos meses. O modelo mostra que 2x a produção de código com 2x o custo de manutenção por linha resulta em produtividade pior do que o ponto de partida após cerca de 5 meses.

OpenClawRadar
Desenvolvedores do Vale do Silício relatam padrões intensos de uso da IA Claude e tensão na infraestrutura
News

Desenvolvedores do Vale do Silício relatam padrões intensos de uso da IA Claude e tensão na infraestrutura

Um engenheiro sênior de IA na Meta gasta US$ 2.000/mês em tokens do Claude Code, executa mais de 2 agentes simultaneamente e criou uma extensão do VS Code que gera automaticamente um grafo de conhecimento no Obsidian a partir de conversas com o Claude. A infraestrutura estaria 'completamente destruída' devido ao envio de código gerado pelo Claude sem revisão.

OpenClawRadar
Por que um Desenvolvedor Mantém Tags de Coautoria de IA em Commits
News

Por que um Desenvolvedor Mantém Tags de Coautoria de IA em Commits

Um desenvolvedor explica por que deliberadamente inclui 'Co-Authored-by: Claude' em seus commits do Git, comparando isso aos dados EXIF na fotografia e discutindo os desafios das alterações de código assistidas por IA cirúrgica.

OpenClawRadar
MiniMax Lança MaxClaw: Agente de IA Hospedado na Nuvem Baseado no OpenClaw
News

MiniMax Lança MaxClaw: Agente de IA Hospedado na Nuvem Baseado no OpenClaw

A MiniMax lançou o MaxClaw, um agente de IA totalmente gerenciado e hospedado na nuvem, construído sobre o framework OpenClaw. Ele é implantado em 10 segundos, sem necessidade de Docker ou servidores, e apresenta o modelo MiniMax M2.5 com 229 bilhões de parâmetros, contexto de 200 mil a 1 milhão de tokens e velocidade de inferência de até 100 tokens/s.

OpenClawRadar