12GB VRAM 基准测试:在 RTX 4070 Super 上运行 Qwen 3.6 和 Gemma 4 模型

Пользователь Reddit опубликовал бенчмарки скорости для запуска нескольких больших MoE-моделей на 12 ГБ RTX 4070 Super (с +10% разгоном) в связке с процессором AMD 9800X3D и 64 ГБ DDR5-6000 RAM. Пользователь выводит изображение на встроенное видео iGPU, чтобы сэкономить VRAM, отмечая штраф производительности около 10% в противном случае. Настройка использует CUDA 13.1 и последнюю версию llama.cpp со следующей конфигурацией оборудования:
n-gpu-layers = 999
threads = 8
threads-batch = 16
batch-size = 4096
ubatch-size = 4096
ctx-size = 65536
flash-attn = true
Результаты бенчмарков
Пользователь протестировал четыре модели с помощью квантов Unsloth GGUF в VS Code с Cline и KiloCode (проблем с вызовом инструментов не было). Все измерения приведены в токенах в секунду (tgs) и обработке в секунду (pps).
- Qwen3.6-35B-A3B-GGUF Q6_K_XL: 40 tgs, 2100 pps
- Qwen3.6-27B-IQ3_XXS: 16 tgs, 1000 pps
- Gemma 4 26B-A4B-it-UD-Q8: 26 tgs, 2150 pps
- Gemma-4-31B-it-IQ3_XXS: 13-16 tgs, 650 pps
Примечательные детали конфигурации
Пользователь поделился конфигурациями отдельных моделей с конкретными настройками. Ключевые моменты:
- Для Qwen3.6-35B-A3B:
n-cpu-moe = 35(выгрузка 35 экспертов MoE на CPU),cache-type-k = q8_0,cache-type-v = q8_0,swa-full = true,cache-reuse = 512, размер контекста 131072, рассуждения включены с бюджетом 8096. - Для Gemma 4 26B:
n-cpu-moe = 27, контекст 102400,fit = onсfit-target = 256иfit-ctx = 32768. - Для Gemma 4 31B: используется спекулятивное декодирование с
ngram-mod(spec-type = ngram-mod),n-gpu-layers = 58(частичная выгрузка на GPU),cache-type-k = q4_0,no-kv-offload = true. - Во всех моделях используется
flash-attn = trueиno-mmproj-offload = true.
Предпочтительной моделью пользователя для веб-разработки является Qwen3.6-35B-A3B, он хвалит её качество без проблем с вызовом инструментов в расширениях VS Code.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Использование ИИ как когнитивного партнера, а не фабрики кода
В посте на Reddit предлагается системный промпт под названием 'Cognitive Authorship Copilot', который заставляет ИИ действовать как партнёр по парному программированию, а не как автономный генератор решений, с тремя уровнями вмешательства в зависимости от сложности задачи.

Практические стратегии кодирования ИИ, основанные на 1000 часах опыта
В посте на Reddit описываются конкретные уровни промптов и стратегии рабочего процесса для эффективного использования AI-агентов в программировании, включая отношение к ИИ как к младшему разработчику, поэтапную реализацию и использование файлов с инструкциями.

Claude Code v2.1.36: Fast Mode теперь доступен для Opus 4.6
Anthropic выпускает Claude Code v2.1.36 с поддержкой Fast Mode для новейшей модели Opus 4.6, обеспечивая значительно более быструю генерацию и анализ кода.

4-файловая система памяти для агентов OpenClaw без плагинов
Пользователь Reddit делится практической системой памяти, использующей четыре файла в формате markdown: USER.md для идентификации, CONTEXT.md для текущей работы, MEMORY.md для структурированных тем и ARCHIVE.md для завершённых задач. Этот подход решает проблему «агент не знает, что он знает» через улучшенную архитектуру файлов, а не за счёт увеличения памяти.