Проблема смещения контекста в локальном конвейере LLM при многошаговой агентной работе

Практические результаты двух месяцев тестирования LLM-конвейеров
Разработчик недавно поделился результатами двухмесячного запуска многоэтапного конвейера автоматизации поиска работы. Конвейер включал исследование, составление резюме и генерацию сопроводительных писем. Тестирование проводилось с использованием Llama-3.3-70b-versatile как на бесплатном тарифе Groq, так и на локальном Ollama в течение нескольких недель в вечернее время.
Где локальные модели проиграли
Хотя локальные модели выигрывали в приватности, стоимости и отсутствии ограничений по квотам на сессию, они столкнулись со значительными проблемами в агентских рабочих процессах:
- Дрейф контекста в многоэтапных конвейерах: Локальные модели успешно выполняли шаг 2, но к моменту достижения шага 4 забывали то, что было установлено на шаге 1. Разработчик наблюдал это в конвейерах из 5-6 узлов, где поддержание согласованного контекста было критически важным.
- Сравнение с облачными моделями: Claude на бесплатном тарифе Groq не проявлял этой проблемы дрейфа контекста почти так же сильно, что указывает на лучшую производительность в поддержании контекста между последовательными задачами.
Скрытая ловушка бесплатного тарифа
Разработчик выделил ещё одну практическую проблему: модели бесплатного тарифа тихо выводятся из эксплуатации без предупреждения. Вы можете настроить конвейер с определённой моделью, уйти на несколько недель и вернуться, чтобы обнаружить, что половина вашей конфигурации сломана с неверными результатами.
Разработчик отметил, что это не был пост с бенчмарками, а реальный опыт, и он искренне открыт к тому, что может ошибаться насчёт части с дрейфом контекста, спрашивая, что на самом деле работает для многоэтапной агентской работы в настоящее время.
📖 Прочитать полный источник: r/LocalLLaMA
👀 Смотрите также

Как Клод превратил сайт не-разработчика в 10 тысяч пользователей с помощью SEO и AEO
Неразаработчик использовал Claude для SEO-стратегии контента, AEO-оптимизации и технических аудитов, чтобы развить маркетплейс AI-навыков с 0 до 10 000 активных пользователей за 6 недель без затрат на рекламу.

Основатель-одиночка создает демонстрационное видео с помощью Claude Code и Remotion.
Соло-разработчик использовал Claude Code и Remotion, чтобы создать демонстрационное видео продукта за выходные с бюджетом $0, преодолев задержку запуска, вызванную отсутствием навыков дизайна и ограниченным бюджетом.

SeatBee.app использует искусственный интеллект Claude для составления рассадки гостей на свадьбе.
SeatBee.app был создан с использованием Claude Code и Claude AI через OpenRouter для решения проблем с рассадкой гостей на свадьбах. ИИ обрабатывает задачи удовлетворения ограничений для 150 гостей с 20 правилами, генерирует оптимальную рассадку за секунды и понимает социальную динамику, например, создавая буферные зоны между людьми, пережившими болезненный разрыв.

BinktermPHP: Полноценная платформа для BBS/FidoNet, созданная в основном с помощью Claude
BinktermPHP — это веб-ориентированная BBS с открытым исходным кодом, написанная на PHP 8 с использованием PostgreSQL, включающая встроенный почтовый клиент binkp для FidoNet, эхопочту/сетевую почту, файловые области, дверные игры, серверный push в реальном времени и MCP-сервер, предоставляющий доступ к эхопочте для ИИ-ассистентов. Разработчик сообщает, что создал её почти полностью с помощью Claude для реализации, в то время как сам занимался архитектурой и тестированием.