Локальная настройка Claude Code с использованием Qwen3.5 27B через llama.cpp

Локальная конфигурация Claude Code
Разработчик задокументировал свою настройку для полностью автономного запуска Claude Code с использованием локальной языковой модели через llama.cpp. Система использует Qwen3.5 27B, квантованную с unsloth/UD-Q4_K_XL на Arch Linux с оборудованием Strix Halo.
Конфигурация окружения
Чтобы отключить телеметрию и сделать Claude Code полностью автономным, в файле ~/.bashrc были установлены следующие переменные окружения:
export ANTHROPIC_BASE_URL="http://127.0.0.1:8001" export ANTHROPIC_API_KEY="not-set" export ANTHROPIC_AUTH_TOKEN="not-set" export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1 export CLAUDE_CODE_ENABLE_TELEMETRY=0 export DISABLE_AUTOUPDATER=1 export DISABLE_TELEMETRY=1 export CLAUDE_CODE_DISABLE_1M_CONTEXT=1 export CLAUDE_CODE_MAX_OUTPUT_TOKENS=4096 export CLAUDE_CODE_AUTO_COMPACT_WINDOW=32768
Разработчик отметил, что использование claude/settings.json является более стабильным и контролируемым, чем переменные окружения.
Конфигурация сервера llama.cpp
Сервер llama.cpp был запущен со следующими параметрами:
ROCBLAS_USE_HIPBLASLT=1 ./build/bin/llama-server \ --model models/Qwen3.5-27B-Q4_K_M.gguf \ --alias "qwen3.5-27b" \ --port 8001 --ctx-size 65536 --n-gpu-layers 999 \ --flash-attn on --jinja --threads 8 \ --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 \ --cache-type-k q8_0 --cache-type-v q8_0
Флаг ROCBLAS_USE_HIPBLASLT=1 был необходим для оборудования Strix Halo, и разработчик подчеркнул важность изучения конкретного оборудования для специализированной настройки llama.cpp.
Тестирование производительности
Было проведено семь запусков со следующими результатами:
- Запуск 1 (Файловые операции): 1м44с, 9.71 токенов/сек, контекст 23K, корректный вывод
- Запуск 2 (Git clone + чтение кода): 2м31с, 9.56 т/с, контекст 32.5K, отличное качество
- Запуск 3 (7-дневный план + руководство): 4м57с, 8.37 т/с, контекст 37.9K, отличное качество
- Запуск 4 (Оценка навыков): 4м36с, 8.46 т/с, контекст 40K, очень хорошее качество (веб-поиск не работает)
- Запуск 5 (Написание Python-скрипта): 10м25с, 7.54 т/с, контекст 60.4K, хорошее качество (7/10)
- Запуск 6 (Ревью кода + исправление): 9м29с, 7.42 т/с, контекст 65,535 (СБОЙ), очень хорошее качество (8.5/10)
- Запуск 7 (команда /compact): ~10м, ~8.07 т/с, контекст 66,680 (неудача), качество N/A
Ключевые выводы
- Скорость генерации снизилась примерно на 24% в диапазоне контекста: с 9.71 т/с при 23K контекста до 7.42 т/с при 65K контекста
- Системный промпт Claude Code занимает 22,870 токенов (35% от бюджета в 65K)
- Автоматическое сжатие полностью не работало: Claude Code предполагал контекст в 200K, поэтому порог в 95% составлял 190K, но лимит в 65K достигался при 33% от того, что Claude Code считал окном
- Команде /compact требуется запас для вывода: при максимальных 4096 токенах на вывод сводка сжатия не помещалась, требовалось 16K+ токенов
- Функция веб-поиска не работает без подключения к Anthropic; потенциальные решения включают SearXNG через MCP
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Стартовые затраты на OpenClaw: железо, API и месячный бюджет

Распространенные ошибки при установке OpenClaw и способы их устранения
Публикация на Reddit объединяет решения для нескольких распространённых проблем с установкой OpenClaw, включая настройку PATH, ошибки прав доступа, требования к версии Node.js, проблемы с TTY и состояниями плагинов.

Исправление недействительности кэша KV в Claude Code с использованием локальных бэкендов
Версии Claude Code 2.1.36+ внедряют динамические заголовки телеметрии и обновления статуса git в каждый запрос, нарушая префиксное сопоставление и вынуждая локальные бэкенды вроде llama.cpp полностью переобрабатывать системные промпты размером 20K+ токенов. Настройка в ~/.claude/settings.json может сократить обработку с 60+ секунд до ~4 секунд.

Решение проблем с отключением в интерфейсе управления OpenClaw
Узнайте, как решить ошибку 'Disconnected (1008): control ui требует HTTPS или localhost' при использовании OpenClaw на VPS от Hostinger.