Qwen 3.5 35B, работающий на 8 ГБ видеопамяти с конфигурацией llama.cpp

Локальная настройка Qwen 3.5 35B при ограниченной видеопамяти
Разработчик на r/LocalLLaMA подробно описал свою конфигурацию для локального запуска модели Qwen 3.5 35B на оборудовании с 8 ГБ видеопамяти. Он перешёл с использования Antigravity (с планом Google AI Pro) на локальные LLM после достижения лимитов облачного сервиса.
Характеристики оборудования и модели
Настройка использует ноутбук Lenovo Legion с процессором i9-14900HX (с отключёнными E-ядрами в BIOS, 32 ГБ оперативной памяти DDR5) и видеокартой RTX 4060m с 8 ГБ видеопамяти. Конкретная модель — Qwen 3.5 35B A3B Heretic Opus (Q4_K_M GGUF).
Производительность и конфигурация llama.cpp
Разработчик сообщает о достижении примерно 700 токенов в секунду при обработке промптов и 42 токена в секунду при генерации токенов с этой настройкой. После тестирования он предоставил свои аргументы командной строки для llama.cpp:
-ngl 99 ^ --n-cpu-moe 40 ^ -c 192000 ^ -t 12 ^ -tb 16 ^ -b 4096 ^ --ubatch-size 2048 ^ --flash-attn on ^ --cache-type-k q8_0 ^ --cache-type-v q8_0 ^ --mlock
Интеграция в рабочий процесс
Для своего агентского рабочего процесса он нашёл, что Cline в VSCode является наиболее близкой альтернативой Antigravity. В этой настройке он использует kat-coder-pro для режима Plan и qwen3.5 для режима Act. Разработчик ищет отзывы о том, лучше ли эта локальная конфигурация, чем продолжение использования Google Gemini 3 Flash в Antigravity, отмечая, что для него приоритетом является плавность рабочего процесса, а не вопросы конфиденциальности.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

blend-ai: Новый сервис MCP для Blender в Claude Code
blend-ai — это новый сервис MCP для Blender, который позволяет Claude Code генерировать 3D-сцены. Пользователь сообщил, что он работает быстрее и лучше, чем blender-mcp, создав сцену запуска шаттла по референсным изображениям за 5 минут.

PaperclipAI: Открытый исходный код для управления компаниями без участия человека
PaperclipAI — это фреймворк с открытым исходным кодом для оркестрации, предназначенный для полностью автоматизированных компаний. Проект набрал 14 000 звёзд на GitHub в первую неделю своего существования.

fintool добавляет торговлю акциями и прогнозными рынками агентам OpenClaw.
fintool — это новый навык OpenClaw, который позволяет ИИ-агентам торговать акциями и прогнозными рынками. Для установки требуется прочитать файл на GitHub, после чего агенты смогут выполнять сделки на Hyperliquid, Binance и Polymarket с выводом в формате JSON для удобной интеграции.

Argus: Расширение VS Code для отладки затрат и поведения сеансов Claude Code
Разработчик создал Argus — расширение для VS Code, которое парсит JSONL-транскрипты Claude Code в timeline в реальном времени с разбивкой токенов/стоимости на каждый шаг, коэффициентом попадания в кеш и пометками циклов повторных попыток, дублирующихся чтений и перегрузки контекста.