Агентный контекстный движок: Автоматизированный цикл улучшения агентов с приростом точности на 34,2%

✍️ OpenClawRadar📅 Опубликовано: 17 марта 2026 г.🔗 Source
Агентный контекстный движок: Автоматизированный цикл улучшения агентов с приростом точности на 34,2%
Ad

Автоматизация цикла улучшения агентов

Разработчик опубликовал систему с открытым исходным кодом, которая автоматизирует весь процесс улучшения ИИ-агентов, позволяя им самостоятельно анализировать и корректировать свою работу. Инструмент решает распространённую проблему ручного чтения логов, настройки промптов и надежды на улучшения.

Пятиэтапный процесс

Автоматизированный цикл состоит из пяти этапов:

  • Анализ трассировок: Анализирует трассировки, чтобы определить не только что пошло не так, но и почему, является ли проблема разовой или системной, и к какой категории сбоев она относится. Выдаёт структурированную разбивку типов сбоев вместо простых списков ошибок.
  • Создание оценок: Формирует конкретные проверки для валидации анализа и измерения эффективности исправлений. Общие оценки не выявляют специфические сбои. LLM-судья используется как запасной вариант, когда данные трассировок недостаточно структурированы для детерминированных проверок.
  • Измерение базовых показателей: Запускает проверки на текущем агенте до внесения исправлений, чтобы установить базовые уровни и валидировать сами проверки.
  • Внедрение исправлений: Разработчик изучает анализ и код, чтобы решить, что изменить. Ключевое решение — относится ли исправление к промпту или к окружающему коду (например, когда оболочка некорректно обрабатывает вывод инструментов или не передаёт нужный контекст).
  • Верификация и накопление: После исправлений проверки запускаются снова для подтверждения улучшений, после чего изменения сохраняются, откатываются или дорабатываются.
Ad

Детали реализации

Решение автоматизирует весь этот цикл от начала до конца одной командой, которая запускает самоанализирующую агентную систему. Анализ трассировок происходит в REPL-среде с агентами, настроенными для этой конкретной задачи. Система предоставляет анализ через CLI-доступ к Claude Code, который обрабатывает остальное с набором навыков.

Поскольку Claude может работать внутри кодовой базы, он проверяет анализ и определяет оптимальный способ действий на этапе исправлений (промпт vs. код).

Результаты и работа

Протестированная на Tau-2 Bench всего за одну итерацию, система уже в первом проходе достигла повышения точности на 34,2% без ручного вмешательства. Система спроектирована для накопления улучшений: новые трассировки выявляют новые проблемы, что приводит к новым исправлениям в каждом цикле.

Вы можете настроить её на полностью автономную работу. Также есть опция с участием человека, если вы хотите утверждать исправления перед 4-м этапом, но в тестах разработчик «просто дал системе работать».

Инструмент с открытым исходным кодом доступен на GitHub: https://github.com/kayba-ai/agentic-context-engine

📖 Read the full source: r/ClaudeAI

Ad

👀 Смотрите также

Membase: Внешний слой памяти для ИИ-ассистентов в различных инструментах
Инструменты

Membase: Внешний слой памяти для ИИ-ассистентов в различных инструментах

Membase — это внешний слой памяти, который извлекает и сохраняет контекст разговора в графе знаний, а затем внедряет соответствующие воспоминания в новые чаты в Claude, ChatGPT, Cursor, Gemini и других ИИ-инструментах. В настоящее время находится в закрытой бета-версии, все функции бесплатны.

OpenClawRadar
Лукас Герадс демонстрирует серверы MCP для интеграции осциллографа и симулятора SPICE с Claude Code.
Инструменты

Лукас Герадс демонстрирует серверы MCP для интеграции осциллографа и симулятора SPICE с Claude Code.

Лукас Герадс создал MCP-серверы для своего осциллографа LeCroy и симулятора SPICE, что позволило Claude Code проверять SPICE-схемы и модели, работать с встраиваемым программированием и автоматизировать задачи анализа данных, такие как нормализация временной оси и выравнивание данных.

OpenClawRadar
Результаты тестирования: 6 бюджетных моделей против Claude Sonnet 4.6 в задаче оркестрации OpenClaw
Инструменты

Результаты тестирования: 6 бюджетных моделей против Claude Sonnet 4.6 в задаче оркестрации OpenClaw

Разработчик протестировал шесть более дешёвых ИИ-моделей против Claude Sonnet 4.6 в качестве основного оркестратора для настройки OpenClaw. Только o4-mini повторил идеальный результат Sonnet, в то время как другие провалились на критически важных задачах, требующих суждения, таких как проверка файлов и делегирование.

OpenClawRadar
Расширение OpenClaw направляет запросы через CLI Claude Code, а не через API.
Инструменты

Расширение OpenClaw направляет запросы через CLI Claude Code, а не через API.

Расширение OpenClaw запускает бинарный файл Claude CLI как подпроцесс, направляя запросы через Claude Code CLI вместо API Anthropic. Это обеспечивает полный опыт работы с Claude Code по фиксированной ставке максимального плана.

OpenClawRadar