Исправление недействительности кэша KV в Claude Code с использованием локальных бэкендов

✍️ OpenClawRadar📅 Опубликовано: 31 марта 2026 г.🔗 Source

Версии Claude Code 2.1.36 и выше внедряют динамический контент в системные промпты при каждом запросе, вызывая инвалидацию KV-кэша при использовании локальных бэкендов вывода, таких как llama.cpp, llama-server или LM Studio. Это заставляет оборудование заново обрабатывать системные промпты размером 20K+ токенов с нуля для незначительных вызовов инструментов.

Проблема

llama.cpp полагается на точное строковое сопоставление для повторного использования KV-кэша. Когда начало промпта меняется, весь кэш сбрасывается и полный промпт должен быть обработан заново. Claude Code вводит два динамических элемента, которые изменяют промпты на каждом шаге:

Хэш телеметрии: Внедряет заголовок биллинга/телеметрии (x-anthropic-billing-header: cch=xxxxx) с хэшем, который меняется при каждом запросе
Снимок Git: Внедряет вывод git status в блок окружения, изменяя промпт при модификации файлов

Это приводит к тому, что логи сервера показывают "принудительную полную переобработку промпта из-за отсутствия данных кэша" и время обработки 60+ секунд для операций, которые должны быть незначительными.

Решение

Настройте Claude Code на отключение динамических элементов промпта и маршрутизацию на ваше локальное оборудование. Откройте ~/.claude/settings.json (или локальную конфигурацию вашего проекта) и убедитесь в следующей конфигурации:

{
  "includeGitInstructions": false,
  "env": {
    "ANTHROPIC_BASE_URL": "<your-llama-server-here>",
    "ANTHROPIC_API_KEY": "<any-string>",
    "CLAUDE_CODE_ATTRIBUTION_HEADER": "0",
    "DISABLE_TELEMETRY": "1",
    "DISABLE_ERROR_REPORTING": "1",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1"
  }
}

После перезапуска Claude Code логи llama-server должны показывать улучшенное распознавание кэша. Вместо обработки 24 000 токенов вы увидите сообщения вроде "selected slot by LCP similarity, sim_best = 0.973", за которыми следует "prompt processing progress, n_tokens = 24270, batch.n_tokens = 4" — что указывает на обработку всего 600 токенов разницы вместо полной переобработки.

Это сокращает время локальных вызовов инструментов с более минуты до примерно 4 секунд на оборудовании вроде Quadro RTX-8000 эпохи Turing.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Гайды

Контрактное тестирование для разработки на основе искусственного интеллекта с использованием OpenClaw

Контрактное тестирование может заменить интеграционные/E2E-тесты при использовании ИИ-агентов, таких как OpenClaw, фокусируясь на интерфейсах и инвариантах между компонентами. ИИ генерирует код для удовлетворения детерминированных контрактов, создавая быструю обратную связь для ускорения итераций.

14 мар. 2026 г., 08:45 UTC

OpenClawRadar

Гайды

Как 40 исправлений промптов превратили резюме Claude AI в продукт: кейс платформы репетиторства ($19 тыс. MRR)

Учебная платформа с MRR $19K более 40 раз итерировала подсказку для сводок уроков, генерируемых Claude. Путь от расплывчатой первой версии к персонализированной 40-й показывает, как инженерия подсказок превращает функцию в продукт.

1 июн. 2026 г., 12:18 UTC

OpenClawRadar

Гайды

Внедрение системы регулярной медитации для повышения согласованности агента OpenClaw

Разработчик делится структурированной системой рефлексии для агентов OpenClaw, использующей определённую цепочку файлов, включая meditations.md, reflections/*.md и файлы идентичности. Ночной цикл включает просмотр и добавление записей в эти файлы для стимулирования инсайтов, ведущих к устойчивым изменениям поведения.

14 мар. 2026 г., 09:45 UTC

OpenClawRadar

Гайды

Создание пользовательской системы глоссария хинди с помощью Claude: от 76% до 92% точности за 10 месяцев

Инженер из Бангалора создал собственную систему глоссариев для Claude, повысив точность хинди-лексики с 76% до 92%. Наиболее эффективными оказались термины с примерами в контексте.

3 июн. 2026 г., 12:15 UTC

OpenClawRadar