Исправление смещения контекста в LLM конвейере: 5-6 узлов на Llama-3.3-70b

Практические результаты двух месяцев тестирования LLM-конвейеров

Разработчик недавно поделился результатами двухмесячного запуска многоэтапного конвейера автоматизации поиска работы. Конвейер включал исследование, составление резюме и генерацию сопроводительных писем. Тестирование проводилось с использованием Llama-3.3-70b-versatile как на бесплатном тарифе Groq, так и на локальном Ollama в течение нескольких недель в вечернее время.

Где локальные модели проиграли

Хотя локальные модели выигрывали в приватности, стоимости и отсутствии ограничений по квотам на сессию, они столкнулись со значительными проблемами в агентских рабочих процессах:

Дрейф контекста в многоэтапных конвейерах: Локальные модели успешно выполняли шаг 2, но к моменту достижения шага 4 забывали то, что было установлено на шаге 1. Разработчик наблюдал это в конвейерах из 5-6 узлов, где поддержание согласованного контекста было критически важным.
Сравнение с облачными моделями: Claude на бесплатном тарифе Groq не проявлял этой проблемы дрейфа контекста почти так же сильно, что указывает на лучшую производительность в поддержании контекста между последовательными задачами.

Скрытая ловушка бесплатного тарифа

Разработчик выделил ещё одну практическую проблему: модели бесплатного тарифа тихо выводятся из эксплуатации без предупреждения. Вы можете настроить конвейер с определённой моделью, уйти на несколько недель и вернуться, чтобы обнаружить, что половина вашей конфигурации сломана с неверными результатами.

Разработчик отметил, что это не был пост с бенчмарками, а реальный опыт, и он искренне открыт к тому, что может ошибаться насчёт части с дрейфом контекста, спрашивая, что на самом деле работает для многоэтапной агентской работы в настоящее время.

📖 Прочитать полный источник: r/LocalLLaMA

Проблема смещения контекста в локальном конвейере LLM при многошаговой агентной работе

Практические результаты двух месяцев тестирования LLM-конвейеров

Где локальные модели проиграли

Скрытая ловушка бесплатного тарифа

👀 Смотрите также

Проекты Claude против Claude Code: разрыв между чтением и записью разочаровывает пользователей «второго мозга»

Анализ антропоморфизма в чате Claude Pokemon с использованием байесовских моделей

Практические рабочие процессы OpenClaw: автоматизация TikTok, отслеживание портфеля, вовлечение на Reddit и запланированные задачи.

Разработчик создает сложную систему за 20 часов с помощью Claude AI, не написав ни строчки кода.