Obliteratus 도구를 사용하여 AI 모델의 거부 가중치 제거하기

✍️ OpenClawRadar📅 게시일: April 16, 2026🔗 Source
Obliteratus 도구를 사용하여 AI 모델의 거부 가중치 제거하기
Ad

r/LocalLLaMA의 한 레딧 사용자가 AI 모델의 거부 행동을 담당하는 특정 가중치를 제거하기 위해 Obliteratus 툴킷을 사용하는 방법을 시연했습니다. 이 접근법은 안전 필터와 기업 정체성 가드레일을 강제하는 가중치를 외과적으로 삭제하는 것을 포함합니다.

원본의 주요 세부사항

사용자는 구체적으로:

  • 거부 행동을 담당하는 가중치를 찾기 위해 Obliteratus 툴킷을 사용했습니다
  • 알리바바의 Qwen 1.5B 모델에서 이 가중치들을 외과적으로 제거했습니다
  • 수정된 모델에게 누가 훈련시켰는지 물어보며 테스트했습니다
  • 기업 정체성 가드레일이 수학적으로 삭제되자, 모델이 Anthropic에 의해 훈련되었다고 인정하는 것을 발견했습니다
  • 이것이 모델이 훈련에 합성 Claude 데이터를 사용한 부작용이라고 언급했습니다

결과는 모델이 추론과 지식 능력을 유지하지만 기업 스크립트를 잃는다는 것을 보여줍니다. 사용자는 이것이 모델을 재훈련할 필요 없이 거부 체인을 담당하는 특정 가중치만 삭제하면 된다고 강조합니다.

이러한 유형의 가중치 절제 기술은 모델 해석 가능성과 제어에 대한 광범위한 연구의 일부입니다. Obliteratus와 같은 도구를 통해 연구자들은 신경망의 어떤 부분이 특정 행동을 담당하는지 검사할 수 있지만, 이러한 수정은 의도하지 않은 결과를 초래할 수 있으며 독점 모델의 이용 약관을 위반할 수 있습니다.

📖 전체 원문 읽기: r/LocalLLaMA

Ad

👀 See Also

Stagent: 로컬 거버넌스와 워크플로 오케스트레이션을 갖춘 Claude Agent SDK용 오픈소스 운영 레이어
Tools

Stagent: 로컬 거버넌스와 워크플로 오케스트레이션을 갖춘 Claude Agent SDK용 오픈소스 운영 레이어

Stagent는 Claude Agent SDK와 Claude API를 기반으로 구축된 오픈소스, 로컬-퍼스트 조정 작업 공간으로, AI 에이전트를 위한 워크플로 오케스트레이션, 예산 가드레일, 인간-참여 거버넌스를 제공합니다. 15개의 제품 인터페이스, 6가지 워크플로 패턴, 52개 이상의 재사용 가능한 에이전트 프로필을 포함하며, SQLite를 사용해 완전히 로컬에서 실행됩니다.

OpenClawRadar
OpenBridge: Slack/Discord를 통한 Claude 코드 무료 오픈소스 원격 제어
Tools

OpenBridge: Slack/Discord를 통한 Claude 코드 무료 오픈소스 원격 제어

OpenBridge는 Slack이나 Discord를 통해 Claude Code를 제어할 수 있는 무료 오픈소스 도구로, 프로젝트를 채널로, 대화를 스레드로 구성합니다. 로컬이나 VPS에서 실행되며 기존 Claude Code/Codex 구독과 함께 작동하여 추가 API 비용이 발생하지 않습니다.

OpenClawRadar
🦀
Tools

연구원, 클로드 코드에 사실 확인 기능 구축, 자체 문서서 환각 발견

한 연구자가 /veracity-tweaked-555라는 Claude Code 스킬을 개발했는데, 이 스킬은 문서를 원자적 주장으로 분해하고 웹 검색을 통해 각각을 검증합니다. 4개의 웨이브에 걸쳐 16개의 병렬 에이전트를 사용합니다. 자체 감사 시, 이 스킬은 자체 문서에 허위 통계와 과장된 주장이 포함되어 있어 100점 만점에 62점을 받았습니다.

OpenClawRadar
클로 컴팩터: LLM 파이프라인을 위한 14단계 토큰 압축 엔진
Tools

클로 컴팩터: LLM 파이프라인을 위한 14단계 토큰 압축 엔진

Claw Compactor는 14단계 Fusion Pipeline을 사용하여 LLM 추론 비용 없이 평균 54% 압축률을 달성하는 오픈소스 LLM 토큰 압축 엔진입니다. 코드, JSON, 로그, diff, 검색 결과에 대한 특화된 압축기를 포함하며 가역적 압축 기능을 제공합니다.

OpenClawRadar