Практический опыт замены стека автоматизации на MCP-серверы и локальные LLM.

Настройка и оборудование
Разработчик использует смесь моделей Qwen 2.5 32B (квантованная) и Llama 3.3 70B на системе с двумя видеокартами 3090. Каждая задача автоматизации получает свой MCP-сервер, который предоставляет инструменты, которые модель может вызывать, функционируя как API, потребляемый LLM, а не человеком.
Что работает хорошо
- Автоматизация ревью кода: Направление модели на git diff через инструменты MCP выявляет реальные проблемы, включая логические ошибки, отсутствие обработки ошибок и состояния гонки. Работает примерно на 70% так же хорошо, как ревью старшего разработчика.
- Анализ логов и оповещения: MCP-сервер подключается к стеку ELK, а модель отслеживает аномальные паттерны. Она обнаружила 3 производственные проблемы до срабатывания оповещений Grafana. Ключ в том, чтобы дать достаточно контекста о том, что выглядит "нормальным" для вашей системы.
- Генерация документации: Модель читает кодовую базу через инструменты MCP для работы с файлами и генерирует/обновляет API-документацию, экономя часы в неделю с действительно хорошим качеством вывода.
Что не работает (пока)
- Цепочки многошаговых рассуждений: Всё, что требует более 3-4 последовательных вызовов инструментов, начинает сбиваться с пути, так как модель теряет контекст исходной цели. Меньшие окна контекста усугубляют это. Подсказки в виде цепочки мыслей помогают, но не решают проблему.
- Принятие решений в реальном времени: Задержка в моделях на 70B означает, что их нельзя использовать для задач, чувствительных ко времени. Конвейер ревью кода занимает 2-3 минуты на PR, что делает его подходящим для асинхронных рабочих процессов, но бесполезным для приложений реального времени.
- Творческое решение проблем: Локальные модели испытывают трудности с задачами, требующими подходов, недостаточно представленных в обучающих данных. API-модели (Claude, GPT-4) здесь заметно лучше.
Ключевые архитектурные уроки
- Держите MCP-серверы без состояния. Пусть модель управляет состоянием через вызовы инструментов, а не через сессию на стороне сервера.
- Встраивайте логику повторных попыток в ваш MCP-клиент, а не в сервер. Модели будут делать некорректные вызовы инструментов примерно в 5% случаев.
- Логируйте каждый вызов инструмента и ответ для отладки, когда модель делает что-то неожиданное.
- Используйте структурированный вывод (режим JSON) для всего, что потребляется нижестоящими системами. Вывод в свободной текстовой форме — это кошмар для отладки.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Агент OpenClaw автоматизирует процесс обработки новостей ИИ с курированием на основе LLM.
Агент OpenClaw запускает полностью автоматизированный конвейер новостей на основе ИИ, который сканирует 25 RSS-лент, 13 сабреддитов Reddit, Twitter, GitHub и веб-поиски, затем использует Gemini Flash для редакционного отбора и Claude Sonnet для написания. Система стоит около $5 в месяц и публикует в Telegram-канал.

Разработчик переводит бизнес-проект OpenClaw на RunLobster после инцидента с безопасностью, сохраняя личный экземпляр на собственном хостинге.
Разработчик перенес свой бизнес-агент OpenClaw на RunLobster за $49/месяц после того, как обнаружил, что его локальный экземпляр был доступен на 0.0.0.0 в течение 3 месяцев после февральского CVE. Личный OpenClaw он оставил на локальном Mac Mini для некритичных задач.

Использование Claude Code для операций выхода на рынок: шаблоны контекстной инженерии
Разработчик делится практическими паттернами использования Claude Code не только для программирования, а именно для запуска операций выхода на рынок, включая скрапинг, обогащение данных, работу с базами данных, email-инфраструктуру и создание контента для нескольких платформ. Ключевые техники включают файлы CLAUDE.md, ограничение сессий, CLI-инструменты вместо MCP-серверов и использование суб-агентов для ресурсоемких задач.

Клод как единственный учитель рисования: итоги первой недели и неожиданные замечания
Разработчик использовал Клода как единственного учителя для портретов цветными карандашами. Критика Клода игнорировала смешивание тонов кожи и вместо этого указала на первоначальный пятиминутный набросок как на корень проблемы.