12GB VRAM Бенчмарк: Qwen 3.6 vs Gemma 4 на RTX 4070 Super

Пользователь Reddit опубликовал бенчмарки скорости для запуска нескольких больших MoE-моделей на 12 ГБ RTX 4070 Super (с +10% разгоном) в связке с процессором AMD 9800X3D и 64 ГБ DDR5-6000 RAM. Пользователь выводит изображение на встроенное видео iGPU, чтобы сэкономить VRAM, отмечая штраф производительности около 10% в противном случае. Настройка использует CUDA 13.1 и последнюю версию llama.cpp со следующей конфигурацией оборудования:

n-gpu-layers = 999
threads = 8
threads-batch = 16
batch-size = 4096
ubatch-size = 4096
ctx-size = 65536
flash-attn = true

Результаты бенчмарков

Пользователь протестировал четыре модели с помощью квантов Unsloth GGUF в VS Code с Cline и KiloCode (проблем с вызовом инструментов не было). Все измерения приведены в токенах в секунду (tgs) и обработке в секунду (pps).

Qwen3.6-35B-A3B-GGUF Q6_K_XL: 40 tgs, 2100 pps
Qwen3.6-27B-IQ3_XXS: 16 tgs, 1000 pps
Gemma 4 26B-A4B-it-UD-Q8: 26 tgs, 2150 pps
Gemma-4-31B-it-IQ3_XXS: 13-16 tgs, 650 pps

Примечательные детали конфигурации

Пользователь поделился конфигурациями отдельных моделей с конкретными настройками. Ключевые моменты:

Для Qwen3.6-35B-A3B: n-cpu-moe = 35 (выгрузка 35 экспертов MoE на CPU), cache-type-k = q8_0, cache-type-v = q8_0, swa-full = true, cache-reuse = 512, размер контекста 131072, рассуждения включены с бюджетом 8096.
Для Gemma 4 26B: n-cpu-moe = 27, контекст 102400, fit = on с fit-target = 256 и fit-ctx = 32768.
Для Gemma 4 31B: используется спекулятивное декодирование с ngram-mod (spec-type = ngram-mod), n-gpu-layers = 58 (частичная выгрузка на GPU), cache-type-k = q4_0, no-kv-offload = true.
Во всех моделях используется flash-attn = true и no-mmproj-offload = true.

Предпочтительной моделью пользователя для веб-разработки является Qwen3.6-35B-A3B, он хвалит её качество без проблем с вызовом инструментов в расширениях VS Code.

📖 Читать полный источник: r/LocalLLaMA

12GB VRAM 基准测试：在 RTX 4070 Super 上运行 Qwen 3.6 和 Gemma 4 模型

Результаты бенчмарков

Примечательные детали конфигурации

👀 Смотрите также

DeepSeek-V4-Flash W4A16+FP8 с MTP-самоспекуляцией: 85 ток/с на 2x RTX PRO 6000 Max-Q

Советы по настройке OpenClaw из опыта пользователя: Gmail MCP, флаги профиля и проблемы с сетью

Исправление ошибки расширения Claude для VS Code: 'command claude-vscode.editor.openLast not found'

Три ключевых навыка OpenClaw для стабильной настройки: Память, Безопасность и Обнаружение.