TestThread: Фреймворк с открытым исходным кодом для тестирования ИИ-агентов

Что делает TestThread
TestThread — это фреймворк для тестирования с открытым исходным кодом, разработанный специально для ИИ-агентов, подобно тому, как pytest работает для традиционного кода. Он решает проблему, когда агенты молча ломаются в продакшене с неправильными выводами, галлюцинациями или неудачными вызовами инструментов, которые становятся заметными только тогда, когда падают зависимые системы.
Ключевые возможности
- 4 типа сопоставления, включая семантическое сопоставление, где ИИ оценивает смысл, а не просто текст
- ИИ-диагностика при неудачах, которая объясняет, почему тесты провалились, и предлагает исправления
- Обнаружение регрессий, которое отмечает падение процента прохождения тестов
- Обнаружение PII, которое автоматически проваливает тесты, если агенты раскрывают конфиденциальные данные
- Проверки траекторий, которые тестируют шаги агента в дополнение к конечным выводам
- Действие CI/CD для GitHub, которое запускает тесты при каждом пуше
- Плановые запуски с интервалами: ежечасно, ежедневно или еженедельно
- Оценка стоимости за запуск
Установка и настройка
Установка через менеджеры пакетов:
pip install testthreadnpm install testthreadФреймворк включает живое API, панель управления и SDK для Python/JavaScript. Он является частью Thread Suite вместе с Iron-Thread, который проверяет выводы, в то время как TestThread тестирует поведение.
Как это работает
Вы определяете, что должен делать ваш агент, запускаете его на вашей реальной конечной точке и получаете результаты прохождения/непрохождения с ИИ-объяснениями неудач. Такой подход помогает выявлять проблемы до того, как они повлияют на продакшен-системы.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Спексмаксинг: Борьба с ИИ-психозом с помощью YAML-спецификаций и ACAI
Acai.sh представляет Specsmaxxing: метод борьбы с потерей контекста AI-агентами путем написания требований в YAML и использования нумерованных критериев приемки для ИИ (ACAI), на которые агенты ссылаются в коде.

Открытый Плагин GTM для Claude Code с 166 Маркетинговыми Навыками и Командой Bootstrap
Разработчик выпустил плагин Go-To-Market с открытым исходным кодом для Claude Code, который предоставляет 166 специализированных маркетинговых навыков в областях SEO, контента, исходящего маркетинга, продаж, роста, аналитики, стратегии, рекламы, социальных сетей, CRM и AI-поиска. Плагин включает команду /bootstrap, которая проводит опрос пользователей об их бренде для создания персонализированных контекстных файлов.

Тестирование 88 малых моделей GGUF на Mac Mini M4 с 16 ГБ памяти.
Автоматизированный конвейер протестировал 88 моделей GGUF на Mac Mini M4 с 16 ГБ оперативной памяти, определив 9 непригодных к использованию и 4 модели LFM2-8B-A1B MoE на границе Парето по скорости и качеству.

Дообученная модель Qwen3-0.6B превосходит учителя размером 120B в структурированном вызове функций.
Distil Labs опубликовала сквозной конвейер, который дообучает модель Qwen3-0.6B для достижения 79,5% точного соответствия при вызове функций IoT умного дома, превосходя 120B учительскую модель на 29 пунктов. Конвейер использует рабочие трассировки для генерации синтетических обучающих данных без ручной аннотации.