ThumbGate, AI 안전을 위해 Tsinghua의 자연어 에이전트 하네스 패턴을 구현합니다

✍️ OpenClawRadar📅 게시일: April 5, 2026🔗 Source
ThumbGate, AI 안전을 위해 Tsinghua의 자연어 에이전트 하네스 패턴을 구현합니다
Ad

NLAH 패턴의 ThumbGate 구현

칭화대 논문(arxiv 2603.25723)의 자연어 에이전트 하네스(NLAH) 패턴은 AI 에이전트 안전 계층을 특정 구성요소를 가진 1급 객체로 취급하는 것을 공식화합니다. 오픈소스 도구 ThumbGate는 이 패턴을 생산 시스템에 대한 구체적인 매핑으로 구현합니다.

구성요소 매핑

ThumbGate는 네 가지 NLAH 구성요소를 실제 구현에 매핑합니다:

  • 계약 → 엄지손가락 아래 피드백에서 자동 생성된 예방 규칙
  • 검증 게이트 → 실행 전 모든 도구 호출을 가로채는 PreToolUse 훅
  • 지속 상태 → 세션 간에 유지되는 SQLite+FTS5 학습 데이터베이스
  • 어댑터 → Claude Code, Cursor, Codex, Gemini, Amp를 위한 MCP 서버 어댑터

주요 구현 통찰

개발자들은 프롬프트 규칙은 조용히 실패하는 반면(에이전트가 규칙을 우회할 수 있음), 검증 게이트는 명확하게 실패한다는 점을 발견했습니다(에이전트는 차단 응답을 받고 적응해야 함). 그들은 불확실한 심각도 수준을 처리하기 위해 톰슨 샘플링을 사용하며, 새로운 규칙은 경고로 시작되어 피드백을 기반으로 강력한 차단으로 승격됩니다.

전체 구현 세부사항과 매핑은 그들의 심층 분석 문서에서 확인할 수 있습니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

호크아이 업데이트, 스웜 오케스트레이션, 원격 작업 및 로컬 모델 지원 추가
Tools

호크아이 업데이트, 스웜 오케스트레이션, 원격 작업 및 로컬 모델 지원 추가

Hawkeye v1.0+는 이제 멀티 에이전트 스웜 오케스트레이션, 원격 작업 큐잉, 개선된 Ollama/LM Studio 통합을 지원합니다. 로컬 퍼스트 AI 에이전트 비행 기록기는 개발자들이 에이전트가 저장소에서 작업할 때 발생하는 일을 추적하는 데 도움을 줍니다.

OpenClawRadar
로그 감소기 MCP 서버, 클로드 코드가 로그를 읽을 때 토큰 사용량 절감
Tools

로그 감소기 MCP 서버, 클로드 코드가 로그를 읽을 때 토큰 사용량 절감

Log Reducer는 로그 파일을 서버 측에서 처리하여 Claude Code에 축소된 출력만 전송하는 MCP 서버로, 원시 로그가 컨텍스트 창에 들어가는 것을 방지합니다. 19가지 결정론적 변환을 적용하여 로그를 50-90% 압축하며, 2,000줄의 로그는 세션에서 20,000개 이상의 토큰이 제거되는 것을 의미합니다.

OpenClawRadar
Baileys를 사용한 Claude Code용 맞춤형 WhatsApp 채널 플러그인
Tools

Baileys를 사용한 Claude Code용 맞춤형 WhatsApp 채널 플러그인

개발자가 Claude Code에 WhatsApp 기능을 추가하는 맞춤형 채널 플러그인을 만들어, Anthropic의 공식 채널 기능이 메시징 플랫폼 통합에서 남긴 공백을 메웠습니다.

OpenClawRadar
소울 MCP 서버, 로컬 LLM에 지속적 메모리와 안전성 추가
Tools

소울 MCP 서버, 로컬 LLM에 지속적 메모리와 안전성 추가

Soul은 로컬 LLM을 위한 오픈소스 MCP 서버로, n2_boot(시작 시)와 n2_work_end(종료 시) 두 가지 명령어를 통해 세션 간 지속적인 메모리를 제공합니다. Ark 안전 기능을 포함하여 rm -rf나 DROP DATABASE 같은 위험한 명령어를 토큰 비용 없이 차단하며, 클라우드 저장소 설정도 지원합니다.

OpenClawRadar