Снизьте расходы на Claude в 60 раз, передав механические задачи DeepSeek V4 Flash через MCP

Пользователь Reddit проанализировал свое использование Claude и обнаружил, что большая часть расходов приходилась на механические задачи: классификацию файлов, переформатирование JSON, извлечение полей из текста и саммаризацию документов, которые он все равно просматривал мельком. Никакой из этих задач не требовал Sonnet. Решение: маленькая дешевая модель, работающая как вспомогательный инструмент через MCP, плюс одно правило в CLAUDE.md, запрещающее Claude выполнять эти задачи.
Настройка: MCP-инструмент + deny-list в CLAUDE.md
Настройка использует один MCP-инструмент, который отправляет текст и получает текст в ответ. Модель по умолчанию — DeepSeek V4 Flash (дешевая, 1M контекст). Эндпоинт задается одной строкой конфигурации и работает с любым провайдером, совместимым с OpenAI (локальный ollama, vllm, lm studio). Репозиторий: github.com/arizen-dev/deepseek-mcp (MIT, Python 3.10+).
Критический момент: правило в CLAUDE.md использует негативную формулировку — список запретов, а не разрешений. Пользователь сообщает, что позитивная формулировка («используй DeepSeek для X») игнорировалась примерно в 30% случаев. Подход с списком запретов срабатывает надежно.
# In CLAUDE.md:
# do NOT use Claude for:
# - json formatting
# - field extraction
# - file classification
# - summarization you will review anyway
Результаты: снижение затрат в 60 раз
За 3 недели реального использования: 217 механических вызовов перенесено на DeepSeek V4 Flash, общие расходы составили $0.41. Та же нагрузка на Sonnet обошлась бы примерно в $7. Это множитель примерно в 17 раз только для этих задач, и пользователь сообщает, что общий счет упал в 60 раз с учетом более тяжелых задач, оставшихся на Sonnet.
Как работает вспомогательный инструмент
Вспомогательный инструмент — это контролируемый инструмент, а не агент: никаких вызовов инструментов, доступа к файлам, цепочек. Задержка составляет 3–25 секунд. Вы проверяете результат. Вся схема: отправить текст, получить текст, проверить, двигаться дальше.
Для кого это
Для разработчиков, использующих Claude API или Claude Code, которые хотят сократить расходы на высокообъемные механические задачи, не теряя при этом возможности Sonnet для сложной работы.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

12GB VRAM 基准测试:在 RTX 4070 Super 上运行 Qwen 3.6 和 Gemma 4 模型
Пользователь Reddit делится подробными бенчмарками скорости для Qwen3.6-35B-A3B, Qwen3.6-27B, Gemma 4 26B и Gemma 4 31B на 12 ГБ RTX 4070 Super с оптимизированными настройками llama.cpp.

Результаты тестирования плагина памяти OpenClaw и рекомендуемый стек
Пользователь Reddit протестировал все плагины памяти OpenClaw и обнаружил, что стандартная настройка markdown вызывает раздувание токенов и сжатие инструкций. Рекомендуемая конфигурация сочетает Obsidian для удобочитаемых заметок, QMD для поиска без токенов и SQLite для структурированных данных.

OpenClaw Multi-Agent: 7 изолированных агентов за 5/месяц
Полное руководство по архитектуре системы специализированных AI-агентов с фокусированной памятью, минимальными правами и умной маршрутизацией моделей.

Уроки по настройке рабочего пространства OpenClaw: опыт двух месяцев использования
Опыт разработчика с OpenClaw показывает, что качество рабочего пространства влияет на производительность агента в 5-10 раз, с конкретными рекомендациями по SOUL.md, AGENTS.md, MEMORY.md, USER.md и настройке навыков.