오픈소스 AI 에이전트 파이프라인용 구조적 환각 검사기

기능
AI 에이전트 파이프라인을 위해 특별히 설계된 구조적 환각 검사기입니다. 사실 확인과 달리, 이 도구는 다운스트림 도구를 중단시키는 구조적 실패를 포착하는 데 중점을 둡니다.
해결하는 문제
대부분의 에이전트 문제는 사실 오류가 아닌 다음과 같은 구조적 문제입니다:
- 모델이 JSON 도구 응답에 필드를 임의로 추가하는 경우
- 검색된 집합에 없던 소스를 인용하는 경우
- 검색된 콘텐츠 내에 숨겨진 프롬프트 주입
- 도구가 반환하지 않은 내용을 반환했다고 주장하는 경우
네 가지 억제기
이 도구에는 Claude Code로 구축된 네 가지 억제기가 포함되어 있으며, 에이전트 출력이 사용자에게 도달하기 전에 단일 단계로 실행됩니다:
grounding_enforcer- 모델 출력이 실제로 전달된 소스에 의해 지원되는지 확인prompt_suppressor- 검색된 콘텐츠 및 도구 결과에서 주입 시도를 포착json_suppressor- 구조화된 도구 응답을 예상 스키마에 대해 검증tool_response_suppressor- 도구의 주장된 출력이 실제 반환 내용과 일치하지 않을 때 표시
이용 가능성
이 도구는 두 가지 형식으로 이용 가능합니다:
- REST API
- MCP 서버 (Claude Desktop, Cursor, Windsurf 등과 호환)
무료 티어는 신용카드 없이 월 500회 요청을 제공합니다.
소스 및 문서
GitHub 저장소: https://github.com/steveswain14/mcp-hallucination-suite
API 및 문서: https://certifai.dev
📖 전체 소스 읽기: r/ClaudeAI
👀 See Also

Roost: 클로드 코드용 단일 Go 바이너리 사이드바 - 클릭 가능한 프롬프트 히스토리, 파일 트리 및 알림
Roost는 Claude Code에 웹 기반 사이드바를 추가하는 단일 Go 바이너리입니다: tmux로 구동되는 xterm.js 터미널, cd를 따라가는 파일 트리, ~/.claude/projects/*.jsonl에서 클릭 가능한 프롬프트 기록, Claude Code의 Stop 훅을 통한 푸시 알림. 인스턴스당 단일 사용자로 SSH를 통해 실행되며, 프론트엔드에 빌드 단계가 없습니다.

카파시의 자동 연구, 애플 뉴럴 엔진으로 이식되어 와트당 처리량 향상
새로운 프로토타입 프로젝트는 Andrej Karpathy의 autoresearch 프로젝트와 리버스 엔지니어링된 Apple Neural Engine 성능을 결합하여, 공식 API 대비 와트당 처리량을 향상시키는 것을 목표로 합니다. 이 프로젝트는 기존 GitHub 저장소를 기반으로 구축되었으며 여러 개발자의 기여를 인정합니다.

MCP 코드 모드를 활용한 효율적인 Claude 키워드 연구
한 개발자가 코드 모드 패턴을 사용해 Claude가 자율적인 키워드 연구를 수행할 수 있도록 하는 MCP 서버를 구축했습니다. 이로써 도구 정의에 필요한 토큰 수를 수천 개에서 약 1,000개로 줄였으며, 검색과 실행이라는 두 가지 도구만 사용합니다.

테스트릴: 클로드 코드를 활용한 프로그래매틱 데모 비디오 생성
Testreel은 JSON, YAML 또는 Playwright 상호작용 설명에서 세련된 제품 데모 비디오를 생성하는 npm 패키지입니다. 커서 오버레이, 클릭 리플, 그라데이션 배경이 포함된 webm/mp4/gif 비디오를 생성합니다.