Агентный контекстный движок: Автоматизированный цикл улучшения агентов с приростом точности на 34,2%

Автоматизация цикла улучшения агентов
Разработчик опубликовал систему с открытым исходным кодом, которая автоматизирует весь процесс улучшения ИИ-агентов, позволяя им самостоятельно анализировать и корректировать свою работу. Инструмент решает распространённую проблему ручного чтения логов, настройки промптов и надежды на улучшения.
Пятиэтапный процесс
Автоматизированный цикл состоит из пяти этапов:
- Анализ трассировок: Анализирует трассировки, чтобы определить не только что пошло не так, но и почему, является ли проблема разовой или системной, и к какой категории сбоев она относится. Выдаёт структурированную разбивку типов сбоев вместо простых списков ошибок.
- Создание оценок: Формирует конкретные проверки для валидации анализа и измерения эффективности исправлений. Общие оценки не выявляют специфические сбои. LLM-судья используется как запасной вариант, когда данные трассировок недостаточно структурированы для детерминированных проверок.
- Измерение базовых показателей: Запускает проверки на текущем агенте до внесения исправлений, чтобы установить базовые уровни и валидировать сами проверки.
- Внедрение исправлений: Разработчик изучает анализ и код, чтобы решить, что изменить. Ключевое решение — относится ли исправление к промпту или к окружающему коду (например, когда оболочка некорректно обрабатывает вывод инструментов или не передаёт нужный контекст).
- Верификация и накопление: После исправлений проверки запускаются снова для подтверждения улучшений, после чего изменения сохраняются, откатываются или дорабатываются.
Детали реализации
Решение автоматизирует весь этот цикл от начала до конца одной командой, которая запускает самоанализирующую агентную систему. Анализ трассировок происходит в REPL-среде с агентами, настроенными для этой конкретной задачи. Система предоставляет анализ через CLI-доступ к Claude Code, который обрабатывает остальное с набором навыков.
Поскольку Claude может работать внутри кодовой базы, он проверяет анализ и определяет оптимальный способ действий на этапе исправлений (промпт vs. код).
Результаты и работа
Протестированная на Tau-2 Bench всего за одну итерацию, система уже в первом проходе достигла повышения точности на 34,2% без ручного вмешательства. Система спроектирована для накопления улучшений: новые трассировки выявляют новые проблемы, что приводит к новым исправлениям в каждом цикле.
Вы можете настроить её на полностью автономную работу. Также есть опция с участием человека, если вы хотите утверждать исправления перед 4-м этапом, но в тестах разработчик «просто дал системе работать».
Инструмент с открытым исходным кодом доступен на GitHub: https://github.com/kayba-ai/agentic-context-engine
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Membase: Внешний слой памяти для ИИ-ассистентов в различных инструментах
Membase — это внешний слой памяти, который извлекает и сохраняет контекст разговора в графе знаний, а затем внедряет соответствующие воспоминания в новые чаты в Claude, ChatGPT, Cursor, Gemini и других ИИ-инструментах. В настоящее время находится в закрытой бета-версии, все функции бесплатны.

Лукас Герадс демонстрирует серверы MCP для интеграции осциллографа и симулятора SPICE с Claude Code.
Лукас Герадс создал MCP-серверы для своего осциллографа LeCroy и симулятора SPICE, что позволило Claude Code проверять SPICE-схемы и модели, работать с встраиваемым программированием и автоматизировать задачи анализа данных, такие как нормализация временной оси и выравнивание данных.

Результаты тестирования: 6 бюджетных моделей против Claude Sonnet 4.6 в задаче оркестрации OpenClaw
Разработчик протестировал шесть более дешёвых ИИ-моделей против Claude Sonnet 4.6 в качестве основного оркестратора для настройки OpenClaw. Только o4-mini повторил идеальный результат Sonnet, в то время как другие провалились на критически важных задачах, требующих суждения, таких как проверка файлов и делегирование.

Расширение OpenClaw направляет запросы через CLI Claude Code, а не через API.
Расширение OpenClaw запускает бинарный файл Claude CLI как подпроцесс, направляя запросы через Claude Code CLI вместо API Anthropic. Это обеспечивает полный опыт работы с Claude Code по фиксированной ставке максимального плана.