Локальная настройка Claude Code с использованием Qwen3.5 27B через llama.cpp

✍️ OpenClawRadar📅 Опубликовано: 14 апреля 2026 г.🔗 Source
Локальная настройка Claude Code с использованием Qwen3.5 27B через llama.cpp
Ad

Локальная конфигурация Claude Code

Разработчик задокументировал свою настройку для полностью автономного запуска Claude Code с использованием локальной языковой модели через llama.cpp. Система использует Qwen3.5 27B, квантованную с unsloth/UD-Q4_K_XL на Arch Linux с оборудованием Strix Halo.

Конфигурация окружения

Чтобы отключить телеметрию и сделать Claude Code полностью автономным, в файле ~/.bashrc были установлены следующие переменные окружения:

export ANTHROPIC_BASE_URL="http://127.0.0.1:8001"
export ANTHROPIC_API_KEY="not-set"
export ANTHROPIC_AUTH_TOKEN="not-set"
export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1
export CLAUDE_CODE_ENABLE_TELEMETRY=0
export DISABLE_AUTOUPDATER=1
export DISABLE_TELEMETRY=1
export CLAUDE_CODE_DISABLE_1M_CONTEXT=1
export CLAUDE_CODE_MAX_OUTPUT_TOKENS=4096
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=32768

Разработчик отметил, что использование claude/settings.json является более стабильным и контролируемым, чем переменные окружения.

Конфигурация сервера llama.cpp

Сервер llama.cpp был запущен со следующими параметрами:

ROCBLAS_USE_HIPBLASLT=1 ./build/bin/llama-server \
--model models/Qwen3.5-27B-Q4_K_M.gguf \
--alias "qwen3.5-27b" \
--port 8001 --ctx-size 65536 --n-gpu-layers 999 \
--flash-attn on --jinja --threads 8 \
--temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 \
--cache-type-k q8_0 --cache-type-v q8_0

Флаг ROCBLAS_USE_HIPBLASLT=1 был необходим для оборудования Strix Halo, и разработчик подчеркнул важность изучения конкретного оборудования для специализированной настройки llama.cpp.

Ad

Тестирование производительности

Было проведено семь запусков со следующими результатами:

  • Запуск 1 (Файловые операции): 1м44с, 9.71 токенов/сек, контекст 23K, корректный вывод
  • Запуск 2 (Git clone + чтение кода): 2м31с, 9.56 т/с, контекст 32.5K, отличное качество
  • Запуск 3 (7-дневный план + руководство): 4м57с, 8.37 т/с, контекст 37.9K, отличное качество
  • Запуск 4 (Оценка навыков): 4м36с, 8.46 т/с, контекст 40K, очень хорошее качество (веб-поиск не работает)
  • Запуск 5 (Написание Python-скрипта): 10м25с, 7.54 т/с, контекст 60.4K, хорошее качество (7/10)
  • Запуск 6 (Ревью кода + исправление): 9м29с, 7.42 т/с, контекст 65,535 (СБОЙ), очень хорошее качество (8.5/10)
  • Запуск 7 (команда /compact): ~10м, ~8.07 т/с, контекст 66,680 (неудача), качество N/A

Ключевые выводы

  • Скорость генерации снизилась примерно на 24% в диапазоне контекста: с 9.71 т/с при 23K контекста до 7.42 т/с при 65K контекста
  • Системный промпт Claude Code занимает 22,870 токенов (35% от бюджета в 65K)
  • Автоматическое сжатие полностью не работало: Claude Code предполагал контекст в 200K, поэтому порог в 95% составлял 190K, но лимит в 65K достигался при 33% от того, что Claude Code считал окном
  • Команде /compact требуется запас для вывода: при максимальных 4096 токенах на вывод сводка сжатия не помещалась, требовалось 16K+ токенов
  • Функция веб-поиска не работает без подключения к Anthropic; потенциальные решения включают SearXNG через MCP

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Стартовые затраты на OpenClaw: железо, API и месячный бюджет
Гайды

Стартовые затраты на OpenClaw: железо, API и месячный бюджет

r/clawdbot community
Распространенные ошибки при установке OpenClaw и способы их устранения
Гайды

Распространенные ошибки при установке OpenClaw и способы их устранения

Публикация на Reddit объединяет решения для нескольких распространённых проблем с установкой OpenClaw, включая настройку PATH, ошибки прав доступа, требования к версии Node.js, проблемы с TTY и состояниями плагинов.

OpenClawRadar
Исправление недействительности кэша KV в Claude Code с использованием локальных бэкендов
Гайды

Исправление недействительности кэша KV в Claude Code с использованием локальных бэкендов

Версии Claude Code 2.1.36+ внедряют динамические заголовки телеметрии и обновления статуса git в каждый запрос, нарушая префиксное сопоставление и вынуждая локальные бэкенды вроде llama.cpp полностью переобрабатывать системные промпты размером 20K+ токенов. Настройка в ~/.claude/settings.json может сократить обработку с 60+ секунд до ~4 секунд.

OpenClawRadar
Решение проблем с отключением в интерфейсе управления OpenClaw
Гайды

Решение проблем с отключением в интерфейсе управления OpenClaw

Узнайте, как решить ошибку 'Disconnected (1008): control ui требует HTTPS или localhost' при использовании OpenClaw на VPS от Hostinger.

OpenClawRadar