12GB VRAM 基准测试:在 RTX 4070 Super 上运行 Qwen 3.6 和 Gemma 4 模型

✍️ OpenClawRadar📅 Опубликовано: 30 апреля 2026 г.🔗 Source
12GB VRAM 基准测试:在 RTX 4070 Super 上运行 Qwen 3.6 和 Gemma 4 模型
Ad

Пользователь Reddit опубликовал бенчмарки скорости для запуска нескольких больших MoE-моделей на 12 ГБ RTX 4070 Super (с +10% разгоном) в связке с процессором AMD 9800X3D и 64 ГБ DDR5-6000 RAM. Пользователь выводит изображение на встроенное видео iGPU, чтобы сэкономить VRAM, отмечая штраф производительности около 10% в противном случае. Настройка использует CUDA 13.1 и последнюю версию llama.cpp со следующей конфигурацией оборудования:

n-gpu-layers = 999
threads = 8
threads-batch = 16
batch-size = 4096
ubatch-size = 4096
ctx-size = 65536
flash-attn = true

Результаты бенчмарков

Пользователь протестировал четыре модели с помощью квантов Unsloth GGUF в VS Code с Cline и KiloCode (проблем с вызовом инструментов не было). Все измерения приведены в токенах в секунду (tgs) и обработке в секунду (pps).

  • Qwen3.6-35B-A3B-GGUF Q6_K_XL: 40 tgs, 2100 pps
  • Qwen3.6-27B-IQ3_XXS: 16 tgs, 1000 pps
  • Gemma 4 26B-A4B-it-UD-Q8: 26 tgs, 2150 pps
  • Gemma-4-31B-it-IQ3_XXS: 13-16 tgs, 650 pps
Ad

Примечательные детали конфигурации

Пользователь поделился конфигурациями отдельных моделей с конкретными настройками. Ключевые моменты:

  • Для Qwen3.6-35B-A3B: n-cpu-moe = 35 (выгрузка 35 экспертов MoE на CPU), cache-type-k = q8_0, cache-type-v = q8_0, swa-full = true, cache-reuse = 512, размер контекста 131072, рассуждения включены с бюджетом 8096.
  • Для Gemma 4 26B: n-cpu-moe = 27, контекст 102400, fit = on с fit-target = 256 и fit-ctx = 32768.
  • Для Gemma 4 31B: используется спекулятивное декодирование с ngram-mod (spec-type = ngram-mod), n-gpu-layers = 58 (частичная выгрузка на GPU), cache-type-k = q4_0, no-kv-offload = true.
  • Во всех моделях используется flash-attn = true и no-mmproj-offload = true.

Предпочтительной моделью пользователя для веб-разработки является Qwen3.6-35B-A3B, он хвалит её качество без проблем с вызовом инструментов в расширениях VS Code.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Использование ИИ как когнитивного партнера, а не фабрики кода
Гайды

Использование ИИ как когнитивного партнера, а не фабрики кода

В посте на Reddit предлагается системный промпт под названием 'Cognitive Authorship Copilot', который заставляет ИИ действовать как партнёр по парному программированию, а не как автономный генератор решений, с тремя уровнями вмешательства в зависимости от сложности задачи.

OpenClawRadar
Практические стратегии кодирования ИИ, основанные на 1000 часах опыта
Гайды

Практические стратегии кодирования ИИ, основанные на 1000 часах опыта

В посте на Reddit описываются конкретные уровни промптов и стратегии рабочего процесса для эффективного использования AI-агентов в программировании, включая отношение к ИИ как к младшему разработчику, поэтапную реализацию и использование файлов с инструкциями.

OpenClawRadar
Claude Code v2.1.36: Fast Mode теперь доступен для Opus 4.6
Гайды

Claude Code v2.1.36: Fast Mode теперь доступен для Opus 4.6

Anthropic выпускает Claude Code v2.1.36 с поддержкой Fast Mode для новейшей модели Opus 4.6, обеспечивая значительно более быструю генерацию и анализ кода.

OpenClaw Radar
4-файловая система памяти для агентов OpenClaw без плагинов
Гайды

4-файловая система памяти для агентов OpenClaw без плагинов

Пользователь Reddit делится практической системой памяти, использующей четыре файла в формате markdown: USER.md для идентификации, CONTEXT.md для текущей работы, MEMORY.md для структурированных тем и ARCHIVE.md для завершённых задач. Этот подход решает проблему «агент не знает, что он знает» через улучшенную архитектуру файлов, а не за счёт увеличения памяти.

OpenClawRadar