Использование локальной LLM в качестве суб-агента для кодирования Claude для снижения расхода контекста

Claude Code может управлять задачами, делегируя их локальной LLM, работающей на вашем компьютере, аналогично тому, как он использует подчинённых агентов Claude. Этот подход сохраняет содержимое файлов вне контекста Claude — обратно передаются только сводка и выводы локальной модели.
Как это работает
Небольшой Python-скрипт (около 120 строк, только стандартная библиотека) запускает цикл агента:
- Вы передаёте Claude описание задачи без содержимого файлов
- Скрипт отправляет его на конечную точку LM Studio
/v1/chat/completionsс определениями инструментовread_fileиlist_dir - Локальная модель сама вызывает эти инструменты, чтобы прочитать нужные файлы
- Цикл продолжается, пока не будет получен окончательный ответ
- Claude видит только результат
Пример команды:
python3 agent_lm.py --dir /path/to/project "summarize solar-system.html"
В результате:
- [ход 1] →
read_file({'path': 'solar-system.html'}) - [ход 2] → Этот HTML-файл создаёт интерактивную анимированную солнечную систему...
Содержимое файла попадает в контекст локальной модели (проверено с контекстом Qwen), а не Claude.
Варианты использования и ограничения
На основе тестирования с Qwen3.5 35B 4-bit через MLX на Apple Silicon, этот подход хорош для:
- Суммаризации и объяснения кода
- Поиска ошибок
- Создания шаблонов / первых набросков
- Трансформации и перевода текста (проверено с ивритом)
- Логических задач и рассуждений (используйте флаг
--thinkдля сложных проблем)
Он не подходит для:
- Задач, требующих полного контекста Claude
- Понимания нескольких файлов, где важны взаимосвязи
- Задач, требующих истории текущего разговора
- Всего, где критична точность
Считайте его помощником уровня Haiku, а не заменой Claude.
Требования к настройке
- LM Studio, работающий локально с включённым API-сервером
- Один Python-скрипт для цикла агента, один для простых запросов только с промптом
- Оба подключены к глобальному файлу
~/.claude/CLAUDE.md, чтобы Claude Code знал, когда предлагать делегирование - Не требуется MCP-сервер, зависимости pip или инфраструктура плагинов
Совет по настройке: добавьте {%- set enable_thinking = false %} в начало шаблона Jinja. Для большинства задач не требуется, чтобы локальная модель рассуждала, и это экономит время и токены, увеличивая скорость без реального ухудшения качества для таких задач.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Как я создал 3D-сайт с прокруткой за 2 часа с помощью Claude Code и Veo
Разработчик создал 3D-сайт с прокруткой за 2 часа, используя Claude Code, генерацию видео Veo и собственный навык «видео в сайт». Исходный код и демо-версия опубликованы.

Исследование Clawe: Открытая система координации многопользовательских агентов
Clawe — это инструмент с открытым исходным кодом, который обеспечивает эффективную координацию многопользовательских агентов и предлагает такие функции, как планирование, управление задачами и уведомления в реальном времени.

Agentlint: Приложение GitHub, которое выявляет противоречия в CLAUDE.md и сломанные указатели в каждом PR
Agentlint — это GitHub-приложение, которое проверяет всю поверхность правил вашего агента (CLAUDE.md, AGENTS.md, навыки, хуки) в каждом PR, публикуя встроенные комментарии о противоречиях, неработающих путях и неподдерживаемых функциях платформы. Бесплатно для публичных репозиториев.

PromptForest: Обнаружение инъекций промптов с приоритетом локальности и учетом неопределенности
PromptForest — это легковесная библиотека с приоритетом локальности, которая обнаруживает инъекции запросов и джейлбрейки, классифицируя их и оценивая степень уверенности, все это без увеличения средней задержки запросов.