Агентный контекстный движок: Автоматизированный цикл улучшения агентов с приростом точности на 34,2%

Автоматизация цикла улучшения агентов
Разработчик опубликовал систему с открытым исходным кодом, которая автоматизирует весь процесс улучшения ИИ-агентов, позволяя им самостоятельно анализировать и корректировать свою работу. Инструмент решает распространённую проблему ручного чтения логов, настройки промптов и надежды на улучшения.
Пятиэтапный процесс
Автоматизированный цикл состоит из пяти этапов:
- Анализ трассировок: Анализирует трассировки, чтобы определить не только что пошло не так, но и почему, является ли проблема разовой или системной, и к какой категории сбоев она относится. Выдаёт структурированную разбивку типов сбоев вместо простых списков ошибок.
- Создание оценок: Формирует конкретные проверки для валидации анализа и измерения эффективности исправлений. Общие оценки не выявляют специфические сбои. LLM-судья используется как запасной вариант, когда данные трассировок недостаточно структурированы для детерминированных проверок.
- Измерение базовых показателей: Запускает проверки на текущем агенте до внесения исправлений, чтобы установить базовые уровни и валидировать сами проверки.
- Внедрение исправлений: Разработчик изучает анализ и код, чтобы решить, что изменить. Ключевое решение — относится ли исправление к промпту или к окружающему коду (например, когда оболочка некорректно обрабатывает вывод инструментов или не передаёт нужный контекст).
- Верификация и накопление: После исправлений проверки запускаются снова для подтверждения улучшений, после чего изменения сохраняются, откатываются или дорабатываются.
Детали реализации
Решение автоматизирует весь этот цикл от начала до конца одной командой, которая запускает самоанализирующую агентную систему. Анализ трассировок происходит в REPL-среде с агентами, настроенными для этой конкретной задачи. Система предоставляет анализ через CLI-доступ к Claude Code, который обрабатывает остальное с набором навыков.
Поскольку Claude может работать внутри кодовой базы, он проверяет анализ и определяет оптимальный способ действий на этапе исправлений (промпт vs. код).
Результаты и работа
Протестированная на Tau-2 Bench всего за одну итерацию, система уже в первом проходе достигла повышения точности на 34,2% без ручного вмешательства. Система спроектирована для накопления улучшений: новые трассировки выявляют новые проблемы, что приводит к новым исправлениям в каждом цикле.
Вы можете настроить её на полностью автономную работу. Также есть опция с участием человека, если вы хотите утверждать исправления перед 4-м этапом, но в тестах разработчик «просто дал системе работать».
Инструмент с открытым исходным кодом доступен на GitHub: https://github.com/kayba-ai/agentic-context-engine
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Mandala v0.3: Открытая асинхронная среда выполнения для унификации логистической телеметрии в виде OpenTelemetry-спанов для рассуждений агентов
Mandala v0.3 — это асинхронный рантайм с открытым исходным кодом, который получает телеметрию от Samsara, Descartes, Vizion и FMCSA через вебхуки, генерирует события в виде Span OpenTelemetry и предоставляет данные через MCP-инструменты для LLM-агентов.

Настройка OpenClaw как постоянного ИИ-ассистента
OpenClaw, настроенный как постоянно действующий AI-ассистент для небольшой команды разработчиков, размещен на сервере Railway, использует Claude в качестве бэкенда и интегрируется с Google Workspace, GitHub и другими сервисами.

CrabMeat v0.1.0: безопасный шлюз для агентов, не доверяющий LLM контроль безопасности
CrabMeat v0.1.0 — это WebSocket-шлюз для агентных нагрузок LLM, обеспечивающий безопасность на архитектурном уровне: косвенная адресация через идентификаторы возможностей, классы эффектов, IRONCLAD_CONTEXT с закрепленными инструкциями, аудиторская цепочка с защитой от изменений, фильтр утечек потокового вывода и отсутствие режима YOLO.

Открытые навыки работы с кодом Claude для персонализированного контента в социальных сетях
Разработчик открыл исходный код 13 навыков Claude Code, которые помогают Claude создавать контент для социальных сетей в вашем собственном стиле. Навыки включают инструменты для определения контекста, стратегии, создания и анализа для LinkedIn, Twitter/X, Threads и Bluesky.