Проверка структурных галлюцинаций с открытым исходным кодом для конвейеров ИИ-агентов

Что он делает
Проверка структурных галлюцинаций, специально разработанная для конвейеров ИИ-агентов. В отличие от проверки фактов, этот инструмент фокусируется на обнаружении структурных сбоев, которые нарушают работу последующих инструментов.
Какую проблему решает
Большинство проблем агентов связаны не с фактическими ошибками, а со структурными проблемами, такими как:
- Модель придумывает поле в JSON-ответе инструмента
- Ссылка на источник, которого нет в полученном наборе
- Инъекция промпта, скрытая внутри полученного контента
- Утверждение, что инструмент вернул что-то, чего он не возвращал
Четыре супрессора
Инструмент включает четыре встроенных супрессора, работающих на Claude Code, которые выполняются как единый шаг перед тем, как вывод агента достигнет пользователей:
grounding_enforcer- проверяет, действительно ли вывод модели поддерживается переданными источникамиprompt_suppressor- обнаруживает попытки инъекций в полученном контенте и результатах инструментовjson_suppressor- проверяет структурированные ответы инструментов на соответствие ожидаемым схемамtool_response_suppressor- помечает случаи, когда заявленный вывод инструмента не соответствует фактическому результату
Доступность
Инструмент доступен в двух форматах:
- REST API
- MCP-сервер (работает с Claude Desktop, Cursor, Windsurf и др.)
Бесплатный тариф предлагает 500 запросов/месяц без необходимости предоставления данных кредитной карты.
Источник и документация
Репозиторий GitHub: https://github.com/steveswain14/mcp-hallucination-suite
API и документация: https://certifai.dev
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

SkillMesh: MCP-совместимый маршрутизатор для больших каталогов инструментов сокращает объём контекста на 70%
SkillMesh — это MCP-совместимый маршрутизатор, который извлекает только релевантные экспертные карточки для запросов AI-агентов, сокращая объём контекста на 70% и улучшая выбор инструментов. Он поддерживает Claude через MCP-сервер, пакеты навыков Codex и схемы функций в стиле OpenAI.

Экранбокс: Открытый код виртуальных рабочих столов для ИИ-агентов, полностью созданных голосом
Screenbox предоставляет изолированные Linux-рабочие столы в Docker для AI-агентов, решая конфликты при параллельном запуске нескольких агентов. Проект был полностью создан с помощью голосовых команд в Claude Code, и создатель не видел ни одной строки кода.

Files.md: Открытое локальное приложение для заметок в Markdown с дизайном, дружественным к LLM
Files.md — это открытое, работающее в первую очередь локально приложение для заметок, задач и дневников на основе Markdown. 886 звёзд, написано на Go, работает офлайн, синхронизируется через iCloud/Dropbox/самостоятельно размещённый сервер или бета-версию на app.files.md.

ClaudeClaw: Бесплатный плагин кода Claude для постоянных AI-агентов на мессенджер-платформах
ClaudeClaw — это бесплатный плагин Claude Code с открытым исходным кодом и лицензией MIT, который запускает Claude в качестве постоянного агента в Slack, WhatsApp и Telegram. Для работы требуется Node.js 20+, Claude Code и ваш собственный ключ API Anthropic, с изоляцией на уровне ОС через sandbox-runtime от Anthropic.