Оптимизация Qwen3.5-9B на RTX 3070 Mobile с помощью ik_llama.cpp: Настройки конфигурации и тесты производительности

✍️ OpenClawRadar📅 Опубликовано: 25 марта 2026 г.🔗 Source
Оптимизация Qwen3.5-9B на RTX 3070 Mobile с помощью ik_llama.cpp: Настройки конфигурации и тесты производительности
Ad

Аппаратное и программное обеспечение

Разработчик задокументировал свой опыт оптимизации локального вывода на ноутбуке с видеокартой RTX 3070 Mobile (8GB видеопамяти, фактически доступно ~7.7GB). Система работает на CachyOS (Arch-based Linux 6.19) с 32GB оперативной памяти и процессором Intel i7-10750H. Использовался ik_llama.cpp (оптимизированный форк llama.cpp от ikawrakow) с моделью Qwen3.5-9B Q4_K_M от Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF.

Проблемы начальной конфигурации

Изначальная базовая конфигурация включала несколько проблем:

  • Флаги для MoE (--n-cpu-moe, -ger, -ser) были некорректно применены к не-MoE модели (n_expert = 0)
  • --mlock молча сбоил из-за ограничений выделения памяти (требуется ulimit -l unlimited или запись в limits.conf)
  • Размер батча -b 4096 потреблял чрезмерную видеопамять (2004 MiB вычислительного буфера), почти 2GB на карте 8GB

Эта конфигурация давала скорость генерации ~47.8 токенов/сек и оценку промптов ~82 токенов/сек при загрузке видеопамяти ~97%.

Результаты оптимизации

После исправления проблем конфигурации и настройки размеров батчей на -b 2048 -ub 512 (уменьшение вычислительного буфера до 501 MiB), разработчик протестировал разные конфигурации KV-кэша:

  • Исходная (q4_0/q4_0, b4096): 47.8 т/с генерация, 82.6 т/с промпт, ~97% видеопамяти
  • Исправленные флаги + b2048/ub512, q8_0K/q4_0V: 48.4 т/с генерация, 189.9 т/с промпт, ~80% видеопамяти
  • q8_0K/q8_0V: 50.0 т/с генерация, 213.0 т/с промпт, ~84% видеопамяти

Скорость оценки промптов резко возросла с ~82 до ~213 т/с, в основном за счёт уменьшения размера батча для освобождения памяти GPU. Хотя скорость генерации изменилась минимально (~2% разница между q4_0 и q8_0), конфигурация q8_0/q8_0 давала заметно более связные и полные ответы на длинные выводы, что стоило дополнительных ~256 MiB видеопамяти.

Ad

Финальная конфигурация

Оптимизированная команда для локального сервера с одним пользователем:

./build/bin/llama-server \
 -m ./models/Qwen3.5-9B.Q4_K_M.gguf \
 -ngl 999 \
 -fa on \
 -c 65536 \
 -b 2048 \
 -ub 512 \
 -ctk q8_0 \
 -ctv q8_0 \
 --threads 6 \
 --threads-batch 12

Открытые вопросы и будущие тесты

Разработчик определил несколько областей для дальнейшего исследования:

  • Настройка лимита мощности GPU на мобильных видеокартах (потенциальное снижение TGP с минимальной потерей скорости, так как вывод ограничен пропускной способностью памяти)
  • Другие модели, совместимые с 8GB, с хорошей производительностью в кодировании или рассуждениях
  • Сравнение ik_llama.cpp с основной версией llama.cpp (оптимизации ik включают слияние операций и повторное использование графов)
  • Советы по гибридной архитектуре SSM (предупреждения о сдвиге контекста вызывают жёсткие остановки при заполнении контекста, без скользящего окна)

Тестирование использовало промпт с запросом реализации программы Rust "Решето Эратосфена" с объяснением алгоритма, анализом сложности и примером вывода для N=50.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Разработка ограничений для обеспечения надежности производственных AI-агентов
Гайды

Разработка ограничений для обеспечения надежности производственных AI-агентов

Пользователь Reddit поделился ограничительным подходом к использованию Claude для сложных операций с кодом, подчеркивая явное перечисление режимов сбоев, поэтапное выполнение с контрольными точками и правила против сокращений, чтобы добиться нулевого количества сломанных сборок при удалении 140 файлов.

OpenClawRadar
Внедрение системы регулярной медитации для повышения согласованности агента OpenClaw
Гайды

Внедрение системы регулярной медитации для повышения согласованности агента OpenClaw

Разработчик делится структурированной системой рефлексии для агентов OpenClaw, использующей определённую цепочку файлов, включая meditations.md, reflections/*.md и файлы идентичности. Ночной цикл включает просмотр и добавление записей в эти файлы для стимулирования инсайтов, ведущих к устойчивым изменениям поведения.

OpenClawRadar
Восстановление удаленных разговоров Claude Desktop из кэша Chromium
Гайды

Восстановление удаленных разговоров Claude Desktop из кэша Chromium

Немедленно закройте Claude Desktop, найдите кеш Chromium blockfile в %APPDATA%\Claude\Cache\Cache_Data (Windows), затем используйте Python-пакеты ccl_chromium_reader и стандартные библиотеки сжатия для извлечения HTTP-ответов, содержащих UUID вашего чата.

OpenClawRadar
5 основных возможностей OpenClaw, доступных без установки навыков
Гайды

5 основных возможностей OpenClaw, доступных без установки навыков

Базовая установка OpenClaw может обрабатывать файловые операции, команды оболочки, веб-запросы, запланированные задачи и многошаговые рабочие процессы без дополнительных навыков, что снижает затраты на токены и сложность настройки.

OpenClawRadar