Проблема смещения контекста в локальном конвейере LLM при многошаговой агентной работе

Практические результаты двух месяцев тестирования LLM-конвейеров
Разработчик недавно поделился результатами двухмесячного запуска многоэтапного конвейера автоматизации поиска работы. Конвейер включал исследование, составление резюме и генерацию сопроводительных писем. Тестирование проводилось с использованием Llama-3.3-70b-versatile как на бесплатном тарифе Groq, так и на локальном Ollama в течение нескольких недель в вечернее время.
Где локальные модели проиграли
Хотя локальные модели выигрывали в приватности, стоимости и отсутствии ограничений по квотам на сессию, они столкнулись со значительными проблемами в агентских рабочих процессах:
- Дрейф контекста в многоэтапных конвейерах: Локальные модели успешно выполняли шаг 2, но к моменту достижения шага 4 забывали то, что было установлено на шаге 1. Разработчик наблюдал это в конвейерах из 5-6 узлов, где поддержание согласованного контекста было критически важным.
- Сравнение с облачными моделями: Claude на бесплатном тарифе Groq не проявлял этой проблемы дрейфа контекста почти так же сильно, что указывает на лучшую производительность в поддержании контекста между последовательными задачами.
Скрытая ловушка бесплатного тарифа
Разработчик выделил ещё одну практическую проблему: модели бесплатного тарифа тихо выводятся из эксплуатации без предупреждения. Вы можете настроить конвейер с определённой моделью, уйти на несколько недель и вернуться, чтобы обнаружить, что половина вашей конфигурации сломана с неверными результатами.
Разработчик отметил, что это не был пост с бенчмарками, а реальный опыт, и он искренне открыт к тому, что может ошибаться насчёт части с дрейфом контекста, спрашивая, что на самом деле работает для многоэтапной агентской работы в настоящее время.
📖 Прочитать полный источник: r/LocalLLaMA
👀 Смотрите также

Практический опыт замены стека автоматизации на MCP-серверы и локальные LLM.
Разработчик делится результатами 4 месяцев работы персональной инфраструктуры автоматизации с использованием MCP-серверов с моделями Qwen 2.5 32B и Llama 3.3 70B на оборудовании с двумя видеокартами 3090, подробно описывая, что работает хорошо, а что нет.

Использование Claude Code с инструментами MCP для автоматизированного поиска потенциальных клиентов
Специалист по продажам сообщает о сокращении времени исследования потенциальных клиентов с 2-3 часов до 30 минут в день благодаря использованию Claude Code, подключенного к инструментам MCP. Система запрашивает реальные источники данных и возвращает структурированные списки лидов с обогащением информации и оценкой по критериям ICP.

Агент OpenClaw потратил $20 на API-токены из-за раздувания контекста при веб-скрапинге
Разработчик, создававший агента OpenClaw для мониторинга финансовых сайтов, случайно потратил токенов API на $20 за несколько часов, получая страницы Yahoo Finance, которые включали 609 000 токенов лишнего HTML, такого как навигационные панели и баннеры cookie, в контекстном окне.

Самостоятельный хостинг OpenClaw для Slack: три режима сбоя и управляемая альтернатива
Разработчик задокументировал три неудачные попытки самостоятельного хостинга OpenClaw для Slack, столкнувшись с разрывами WebSocket-соединений, проблемами обработки сбоев API и незаметными сбоями ротации токенов, прежде чем перейти на SlackClaw.ai — управляемый сервис.