Автоматизированное обеспечение качества и тестирование с помощью ИИ: Новая эра тестирования программного обеспечения

Antirez, создатель Redis, описывает практический метод использования LLM-агентов для автоматизации QA и тестирования. Подход: создайте markdown-файл, который инструктирует AI-агента действовать как QA-инженер, выполняя ручное тестирование нового релиза.
Как это работает
Markdown-файл включает:
- Инструкции по проверке новых коммитов с момента последнего релиза.
- Конкретные задачи QA, такие как тестирование распределенного вывода или проверка регрессии скорости.
- SSH-конечные точки, ключи и пути для интеграционных тестов.
Агент изучает изменения и определяет, что может быть затронуто, затем запускает специализированный QA-проход, нацеленный на регрессии.
Пример: движок вывода DwarfStar
Для DwarfStar, движка вывода LLM с открытыми весами, antirez использует этот файл, чтобы:
- Тест распределенного вывода: Запускается на двух MacBook, проверяя согласованность вывода и поддержку GGUF-файлов на обеих машинах.
- Проверка регрессии скорости: Не нужно указывать предыдущие скорости — агент динамически обучается на кодовой базе.
- Верификация интеграции: Охватывает сложные конфигурации, которые трудно автоматизировать традиционными методами.
Пример: Redis Arrays
Для Redis Arrays агент собирает большое приложение на основе массивов Redis, настраивает производственную репликацию с персистентностью, имитирует дни использования с множеством пользователей и отмечает аномалии.
Психологическое QA
Агент также проверяет функции на ясность и документацию: определяет функции, которые выглядят неожиданными, недокументированными или небрежными с точки зрения пользователя. Это выявляет проблемы UX, которые обычно пропускаются при ручном QA.
📖 Читать полный источник: HN AI Agents
👀 Смотрите также

Конфигурация Day 1: Предотвращение 90% распространенных проблем с OpenClaw
Установите лимиты расходов, напишите SOUL.md и настройте интервал пульса, чтобы избежать неожиданных счетов, неконтролируемого поведения и шока от стоимости пульса.

Claude CLI v2.1.154 ломает локальный vLLM — исправление в одну строку
Claude CLI ≥2.1.154 добавляет три новые роли API (ctx, msg, system), которые нарушают совместимость с локальным vLLM. Одна строка патча протокола Anthropic в vLLM восстанавливает её.

После 3 месяцев A/B-тестирования 160 промпт-кодов для Claude: скучные выводы
Самарт создал контролируемый тестовый стенд, прогнал через него 160 промпт-кодов и обнаружил, что большинство из них — плацебо, 7 последовательно меняют рассуждения, а наложение 3+ кодов сбивает модель с толку. Файлы навыков превосходят промпт-коды для Claude Code.

Как предотвратить гниение CLAUDE.md: Относитесь к правилам как к коду
После 18 месяцев использования в реальных проектах один разработчик делится четырьмя правилами, чтобы держать CLAUDE.md в пределах 100 строк: используйте его как указатель, отделяйте правила от источников, проверяйте в каждом PR и удаляйте больше, чем добавляете.