Локальная настройка Claude Code с использованием Qwen3.5 27B через llama.cpp

✍️ OpenClawRadar📅 Опубликовано: 14 апреля 2026 г.🔗 Source

Локальная конфигурация Claude Code

Разработчик задокументировал свою настройку для полностью автономного запуска Claude Code с использованием локальной языковой модели через llama.cpp. Система использует Qwen3.5 27B, квантованную с unsloth/UD-Q4_K_XL на Arch Linux с оборудованием Strix Halo.

Конфигурация окружения

Чтобы отключить телеметрию и сделать Claude Code полностью автономным, в файле ~/.bashrc были установлены следующие переменные окружения:

export ANTHROPIC_BASE_URL="http://127.0.0.1:8001"
export ANTHROPIC_API_KEY="not-set"
export ANTHROPIC_AUTH_TOKEN="not-set"
export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1
export CLAUDE_CODE_ENABLE_TELEMETRY=0
export DISABLE_AUTOUPDATER=1
export DISABLE_TELEMETRY=1
export CLAUDE_CODE_DISABLE_1M_CONTEXT=1
export CLAUDE_CODE_MAX_OUTPUT_TOKENS=4096
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=32768

Разработчик отметил, что использование claude/settings.json является более стабильным и контролируемым, чем переменные окружения.

Конфигурация сервера llama.cpp

Сервер llama.cpp был запущен со следующими параметрами:

ROCBLAS_USE_HIPBLASLT=1 ./build/bin/llama-server \
--model models/Qwen3.5-27B-Q4_K_M.gguf \
--alias "qwen3.5-27b" \
--port 8001 --ctx-size 65536 --n-gpu-layers 999 \
--flash-attn on --jinja --threads 8 \
--temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 \
--cache-type-k q8_0 --cache-type-v q8_0

Флаг ROCBLAS_USE_HIPBLASLT=1 был необходим для оборудования Strix Halo, и разработчик подчеркнул важность изучения конкретного оборудования для специализированной настройки llama.cpp.

Тестирование производительности

Было проведено семь запусков со следующими результатами:

Запуск 1 (Файловые операции): 1м44с, 9.71 токенов/сек, контекст 23K, корректный вывод
Запуск 2 (Git clone + чтение кода): 2м31с, 9.56 т/с, контекст 32.5K, отличное качество
Запуск 3 (7-дневный план + руководство): 4м57с, 8.37 т/с, контекст 37.9K, отличное качество
Запуск 4 (Оценка навыков): 4м36с, 8.46 т/с, контекст 40K, очень хорошее качество (веб-поиск не работает)
Запуск 5 (Написание Python-скрипта): 10м25с, 7.54 т/с, контекст 60.4K, хорошее качество (7/10)
Запуск 6 (Ревью кода + исправление): 9м29с, 7.42 т/с, контекст 65,535 (СБОЙ), очень хорошее качество (8.5/10)
Запуск 7 (команда /compact): ~10м, ~8.07 т/с, контекст 66,680 (неудача), качество N/A

Ключевые выводы

Скорость генерации снизилась примерно на 24% в диапазоне контекста: с 9.71 т/с при 23K контекста до 7.42 т/с при 65K контекста
Системный промпт Claude Code занимает 22,870 токенов (35% от бюджета в 65K)
Автоматическое сжатие полностью не работало: Claude Code предполагал контекст в 200K, поэтому порог в 95% составлял 190K, но лимит в 65K достигался при 33% от того, что Claude Code считал окном
Команде /compact требуется запас для вывода: при максимальных 4096 токенах на вывод сводка сжатия не помещалась, требовалось 16K+ токенов
Функция веб-поиска не работает без подключения к Anthropic; потенциальные решения включают SearXNG через MCP

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Гайды

Правила SOUL.md дрейфуют в длинных сессиях ИИ-агентов и как это исправить

Правила SOUL.md отлично работают первые 10-15 сообщений, но начинают отклоняться примерно на 20-30 сообщении, поскольку контекст разговора перекрывает начальный системный промпт. Решение — активнее использовать /new для сброса сессий перед каждой новой задачей.

14 апр. 2026 г., 15:39 UTC

OpenClawRadar

Гайды

AGENTS.md Правильно: Повышение точности на 25% — или падение на 30%

Компания Augment Code провела соревновательное тестирование файлов AGENTS.md: лучшие из них дают эффект, сопоставимый с обновлением модели с Haiku до Opus; худшие — ухудшают результат. Таблицы решений, процедурные рабочие процессы и прогрессивное раскрытие информации оказались наиболее эффективными.

28 апр. 2026 г., 22:15 UTC

OpenClawRadar

Гайды

Снизьте расходы на Claude в 60 раз, передав механические задачи DeepSeek V4 Flash через MCP

Пользователь Reddit сократил расходы на Claude API в 60 раз, перенаправив классификацию файлов, переформатирование JSON и извлечение полей на DeepSeek V4 Flash через простой MCP-инструмент и правило deny-list в CLAUDE.md.

4 мая 2026 г., 12:15 UTC

OpenClawRadar

Гайды

Понимание структуры папки .claude/ для настройки Claude Code

Папка .claude/ содержит два каталога: project-level для командной конфигурации и глобальный ~/.claude/ для личных предпочтений. Файлы CLAUDE.md содержат инструкции, которым Клод следует на протяжении сессий, а CLAUDE.local.md предназначен для личных переопределений.

27 мар. 2026 г., 18:45 UTC

OpenClawRadar