TestThread: Фреймворк с открытым кодом для тестирования ИИ-агентов

Что делает TestThread

TestThread — это фреймворк для тестирования с открытым исходным кодом, разработанный специально для ИИ-агентов, подобно тому, как pytest работает для традиционного кода. Он решает проблему, когда агенты молча ломаются в продакшене с неправильными выводами, галлюцинациями или неудачными вызовами инструментов, которые становятся заметными только тогда, когда падают зависимые системы.

Ключевые возможности

4 типа сопоставления, включая семантическое сопоставление, где ИИ оценивает смысл, а не просто текст
ИИ-диагностика при неудачах, которая объясняет, почему тесты провалились, и предлагает исправления
Обнаружение регрессий, которое отмечает падение процента прохождения тестов
Обнаружение PII, которое автоматически проваливает тесты, если агенты раскрывают конфиденциальные данные
Проверки траекторий, которые тестируют шаги агента в дополнение к конечным выводам
Действие CI/CD для GitHub, которое запускает тесты при каждом пуше
Плановые запуски с интервалами: ежечасно, ежедневно или еженедельно
Оценка стоимости за запуск

Установка и настройка

Установка через менеджеры пакетов:

pip install testthread

npm install testthread

Фреймворк включает живое API, панель управления и SDK для Python/JavaScript. Он является частью Thread Suite вместе с Iron-Thread, который проверяет выводы, в то время как TestThread тестирует поведение.

Как это работает

Вы определяете, что должен делать ваш агент, запускаете его на вашей реальной конечной точке и получаете результаты прохождения/непрохождения с ИИ-объяснениями неудач. Такой подход помогает выявлять проблемы до того, как они повлияют на продакшен-системы.

📖 Read the full source: r/LocalLLaMA

TestThread: Фреймворк с открытым исходным кодом для тестирования ИИ-агентов

Что делает TestThread

Ключевые возможности

Установка и настройка

Как это работает

👀 Смотрите также

Клавдетоп: Мониторинг затрат в реальном времени для сессий работы с кодом в Claude

NGX-OS: Сетевая ОС, созданная для ИИ с интеграцией eBPF и MCP

Мониторьте использование вашего Claude AI с помощью нового виджета панели задач для Linux.

Кодев: Рабочий процесс ИИ-агента для 106 PR за 14 дней