TestThread: Фреймворк с открытым исходным кодом для тестирования ИИ-агентов

✍️ OpenClawRadar📅 Опубликовано: 24 марта 2026 г.🔗 Source
TestThread: Фреймворк с открытым исходным кодом для тестирования ИИ-агентов
Ad

Что делает TestThread

TestThread — это фреймворк для тестирования с открытым исходным кодом, разработанный специально для ИИ-агентов, подобно тому, как pytest работает для традиционного кода. Он решает проблему, когда агенты молча ломаются в продакшене с неправильными выводами, галлюцинациями или неудачными вызовами инструментов, которые становятся заметными только тогда, когда падают зависимые системы.

Ключевые возможности

  • 4 типа сопоставления, включая семантическое сопоставление, где ИИ оценивает смысл, а не просто текст
  • ИИ-диагностика при неудачах, которая объясняет, почему тесты провалились, и предлагает исправления
  • Обнаружение регрессий, которое отмечает падение процента прохождения тестов
  • Обнаружение PII, которое автоматически проваливает тесты, если агенты раскрывают конфиденциальные данные
  • Проверки траекторий, которые тестируют шаги агента в дополнение к конечным выводам
  • Действие CI/CD для GitHub, которое запускает тесты при каждом пуше
  • Плановые запуски с интервалами: ежечасно, ежедневно или еженедельно
  • Оценка стоимости за запуск
Ad

Установка и настройка

Установка через менеджеры пакетов:

pip install testthread
npm install testthread

Фреймворк включает живое API, панель управления и SDK для Python/JavaScript. Он является частью Thread Suite вместе с Iron-Thread, который проверяет выводы, в то время как TestThread тестирует поведение.

Как это работает

Вы определяете, что должен делать ваш агент, запускаете его на вашей реальной конечной точке и получаете результаты прохождения/непрохождения с ИИ-объяснениями неудач. Такой подход помогает выявлять проблемы до того, как они повлияют на продакшен-системы.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Спексмаксинг: Борьба с ИИ-психозом с помощью YAML-спецификаций и ACAI
Инструменты

Спексмаксинг: Борьба с ИИ-психозом с помощью YAML-спецификаций и ACAI

Acai.sh представляет Specsmaxxing: метод борьбы с потерей контекста AI-агентами путем написания требований в YAML и использования нумерованных критериев приемки для ИИ (ACAI), на которые агенты ссылаются в коде.

OpenClawRadar
Открытый Плагин GTM для Claude Code с 166 Маркетинговыми Навыками и Командой Bootstrap
Инструменты

Открытый Плагин GTM для Claude Code с 166 Маркетинговыми Навыками и Командой Bootstrap

Разработчик выпустил плагин Go-To-Market с открытым исходным кодом для Claude Code, который предоставляет 166 специализированных маркетинговых навыков в областях SEO, контента, исходящего маркетинга, продаж, роста, аналитики, стратегии, рекламы, социальных сетей, CRM и AI-поиска. Плагин включает команду /bootstrap, которая проводит опрос пользователей об их бренде для создания персонализированных контекстных файлов.

OpenClawRadar
Тестирование 88 малых моделей GGUF на Mac Mini M4 с 16 ГБ памяти.
Инструменты

Тестирование 88 малых моделей GGUF на Mac Mini M4 с 16 ГБ памяти.

Автоматизированный конвейер протестировал 88 моделей GGUF на Mac Mini M4 с 16 ГБ оперативной памяти, определив 9 непригодных к использованию и 4 модели LFM2-8B-A1B MoE на границе Парето по скорости и качеству.

OpenClawRadar
Дообученная модель Qwen3-0.6B превосходит учителя размером 120B в структурированном вызове функций.
Инструменты

Дообученная модель Qwen3-0.6B превосходит учителя размером 120B в структурированном вызове функций.

Distil Labs опубликовала сквозной конвейер, который дообучает модель Qwen3-0.6B для достижения 79,5% точного соответствия при вызове функций IoT умного дома, превосходя 120B учительскую модель на 29 пунктов. Конвейер использует рабочие трассировки для генерации синтетических обучающих данных без ручной аннотации.

OpenClawRadar