Исправление недействительности кэша KV в Claude Code с использованием локальных бэкендов

Версии Claude Code 2.1.36 и выше внедряют динамический контент в системные промпты при каждом запросе, вызывая инвалидацию KV-кэша при использовании локальных бэкендов вывода, таких как llama.cpp, llama-server или LM Studio. Это заставляет оборудование заново обрабатывать системные промпты размером 20K+ токенов с нуля для незначительных вызовов инструментов.
Проблема
llama.cpp полагается на точное строковое сопоставление для повторного использования KV-кэша. Когда начало промпта меняется, весь кэш сбрасывается и полный промпт должен быть обработан заново. Claude Code вводит два динамических элемента, которые изменяют промпты на каждом шаге:
- Хэш телеметрии: Внедряет заголовок биллинга/телеметрии (
x-anthropic-billing-header: cch=xxxxx) с хэшем, который меняется при каждом запросе - Снимок Git: Внедряет вывод
git statusв блок окружения, изменяя промпт при модификации файлов
Это приводит к тому, что логи сервера показывают "принудительную полную переобработку промпта из-за отсутствия данных кэша" и время обработки 60+ секунд для операций, которые должны быть незначительными.
Решение
Настройте Claude Code на отключение динамических элементов промпта и маршрутизацию на ваше локальное оборудование. Откройте ~/.claude/settings.json (или локальную конфигурацию вашего проекта) и убедитесь в следующей конфигурации:
{
"includeGitInstructions": false,
"env": {
"ANTHROPIC_BASE_URL": "<your-llama-server-here>",
"ANTHROPIC_API_KEY": "<any-string>",
"CLAUDE_CODE_ATTRIBUTION_HEADER": "0",
"DISABLE_TELEMETRY": "1",
"DISABLE_ERROR_REPORTING": "1",
"CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1"
}
}После перезапуска Claude Code логи llama-server должны показывать улучшенное распознавание кэша. Вместо обработки 24 000 токенов вы увидите сообщения вроде "selected slot by LCP similarity, sim_best = 0.973", за которыми следует "prompt processing progress, n_tokens = 24270, batch.n_tokens = 4" — что указывает на обработку всего 600 токенов разницы вместо полной переобработки.
Это сокращает время локальных вызовов инструментов с более минуты до примерно 4 секунд на оборудовании вроде Quadro RTX-8000 эпохи Turing.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Установка OpenClaw на MacBook Pro с использованием локального Homebrew и NVM
Пользователь успешно установил OpenClaw на MacBook Pro, используя локальную учётную запись без прав администратора с локальным Homebrew, NVM v0.40.4, Python 3.14.3 через pyenv, Node 24 и LLM Qwen3.5-122B-A10B-MLX-vision-4.7-bit через oMLX.

12 советов для опытных пользователей OpenClaw по эффективной организации рабочих процессов с ИИ-агентами
В посте на Reddit описаны практические стратегии оптимизации использования OpenClaw, включая разделение бесед на тематические ветки, использование голосовых сообщений для ввода, подбор моделей под задачи, делегирование работы под-агентам и внедрение уровней безопасности.

Обходной путь в iOS Shortcuts для отправки фотографий с iPhone в Cowork через синхронизацию iCloud
Разработчик создал iOS-ярлык под названием "PhoPo", который преобразует фотографии с iPhone в JPEG, изменяет их размер и сохраняет в папку, синхронизируемую через iCloud, доступную для Cowork, что позволяет Claude анализировать скриншоты и фотографии с мобильных устройств.

Шпаргалка по структуре папок Claude Code от пользователя Reddit
Пользователь Reddit создал шпаргалку по структуре папок Claude Code после столкновения с распространёнными ошибками, охватывающую структуру каталога .claude/, события хуков, settings.json, конфигурацию MCP, структуру навыков и пороги управления контекстом.