ThumbGate, AI 안전을 위해 Tsinghua의 자연어 에이전트 하네스 패턴을 구현합니다

✍️ OpenClawRadar📅 게시일: April 5, 2026🔗 Source

ThumbGate, AI 안전을 위해 Tsinghua의 자연어 에이전트 하네스 패턴을 구현합니다

Ad

NLAH 패턴의 ThumbGate 구현

칭화대 논문(arxiv 2603.25723)의 자연어 에이전트 하네스(NLAH) 패턴은 AI 에이전트 안전 계층을 특정 구성요소를 가진 1급 객체로 취급하는 것을 공식화합니다. 오픈소스 도구 ThumbGate는 이 패턴을 생산 시스템에 대한 구체적인 매핑으로 구현합니다.

구성요소 매핑

ThumbGate는 네 가지 NLAH 구성요소를 실제 구현에 매핑합니다:

계약 → 엄지손가락 아래 피드백에서 자동 생성된 예방 규칙
검증 게이트 → 실행 전 모든 도구 호출을 가로채는 PreToolUse 훅
지속 상태 → 세션 간에 유지되는 SQLite+FTS5 학습 데이터베이스
어댑터 → Claude Code, Cursor, Codex, Gemini, Amp를 위한 MCP 서버 어댑터

주요 구현 통찰

개발자들은 프롬프트 규칙은 조용히 실패하는 반면(에이전트가 규칙을 우회할 수 있음), 검증 게이트는 명확하게 실패한다는 점을 발견했습니다(에이전트는 차단 응답을 받고 적응해야 함). 그들은 불확실한 심각도 수준을 처리하기 위해 톰슨 샘플링을 사용하며, 새로운 규칙은 경고로 시작되어 피드백을 기반으로 강력한 차단으로 승격됩니다.

전체 구현 세부사항과 매핑은 그들의 심층 분석 문서에서 확인할 수 있습니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

클로드 성장 스킬: AI 코딩 에이전트를 위한 체계적인 B2B SaaS 성장 플레이북

클로드 성장 스킬: AI 코딩 에이전트를 위한 체계적인 B2B SaaS 성장 플레이북

한 개발자가 5개의 SaaS 사례 연구, 9천만 달러 ARR 파트너십, 1,800건의 사용자 인터뷰를 바탕으로 6개의 검증된 플레이북을 포함한 Claude Growth Skill을 구축했습니다. 이는 PMF 검증부터 채널 생태계 및 영업까지 B2B SaaS 성장 작업을 구조화합니다.

Mar 18, 2026, 01:45 PM UTC

브라우저 하네스: LLM에 CDP 직접 접근 권한을 부여하여 브라우저 작업 자체 수정

브라우저 하네스: LLM에 CDP 직접 접근 권한을 부여하여 브라우저 작업 자체 수정

Browser Harness는 브라우저 프레임워크를 제거하여 LLM이 CDP 웹소켓에 직접 접근하고, 작업 중간에 필요한 도구를 스스로 작성할 수 있게 해줍니다. upload_file() 함수를 스스로 만들어내는 모습으로 시연되었습니다.

Apr 24, 2026, 08:15 PM UTC

이벤트 호라이즌 VS 코드 확장 기능, 다중 AI 에이전트를 위한 파일 잠금 및 작업 계획 조정 기능 추가

이벤트 호라이즌 VS 코드 확장 기능, 다중 AI 에이전트를 위한 파일 잠금 및 작업 계획 조정 기능 추가

이벤트 호라이즌은 원래 Claude Code 시각화를 위해 개발된 VS Code 확장 프로그램으로, 이제 파일 잠금 및 계획 조정 기능을 추가하여 여러 AI 에이전트가 동일한 코드베이스에서 서로의 작업을 덮어쓰는 것을 방지합니다. 이 도구는 Claude Code, OpenCode, Copilot을 지원하며 원클릭 설정이 가능합니다.

Apr 14, 2026, 12:45 PM UTC

alogin: 인간-참여형 AI 에이전트를 위한 Go 기반 보안 게이트웨이

alogin: 인간-참여형 AI 에이전트를 위한 Go 기반 보안 게이트웨이

alogin은 Go 기반의 오픈소스 보안 게이트웨이로, AI 에이전트와 인프라 간의 안전한 통로를 제공합니다. Claude Desktop을 위한 내장 MCP 서버 지원, 인간 개입 안전 장치, 암호화된 자격 증명 저장소 등의 기능을 갖추고 있습니다.

Apr 6, 2026, 04:45 AM UTC