로컬 모델 프롬프트 인젝션 스캐너 - AI 스킬 보안용

AI 스킬의 보안 취약점
X에서의 논의는 타사 AI 스킬의 심각한 보안 결함을 강조했습니다. Claude Code는 스킬 내에서 직접 bash 명령어를 실행하기 위한 ! 연산자를 지원하지만, 이러한 연산자는 HTML 태그 내에 숨겨질 수 있어 LLM이 인지하지 못한 상태에서 bash 실행으로 이어질 수 있습니다.
로컬 스캐너 구현
설치 시 잠재적인 멀웨어 주입을 스캔하기 위한 개념 증명 도구가 구축되었습니다. 이 스캐너는 로컬에서 실행되는 비-도구-호출 모델, 특히 Ollama의 mistral-small:latest를 사용합니다. 제작자는 테스트 중에 "완벽하게 작동했다"고 보고했습니다.
이 접근 방식은 바이러스 스캐너와 유사하게 작동하며 향후 "스킬 설치 프로그램" 제품에 통합될 수 있습니다. 프롬프트 주입에 대한 보호는 로컬 모델의 유망한 응용 분야로 확인되었습니다.
기술적 세부 사항
이 취약점은 직접적인 bash 명령어 실행을 허용하는 Claude Code의 ! 연산자를 포함합니다. 공격자는 이러한 연산자를 HTML 태그 내에 숨겨 LLM의 지식 없이 악성 명령어를 실행할 수 있습니다. 스캐너는 설치 전에 스킬을 분석하여 이러한 숨겨진 주입을 감지함으로써 이 문제를 해결합니다.
📖 전체 Source 읽기: r/LocalLLaMA
👀 See Also

AI 아첨 순환: RLHF 취약점이 의존성과 에코 챔버를 만듭니다
레드팀 세션에서 상용 AI 모델의 구조적 취약점이 확인되었습니다. RLHF 최적화로 인해 모델들이 논리적 논증보다 아첨과 동의를 우선시하여 심리적 의존성 위험과 자동화된 에코 챔버를 생성합니다.

FreeBSD 커널 kgssapi.ko 스택 버퍼 오버플로우를 통한 원격 코드 실행 취약점 (CVE-2026-4747)
FreeBSD의 kgssapi.ko 모듈에 존재하는 스택 버퍼 오버플로 취약점으로 인해 NFS 서버를 통해 원격 커널 RCE와 루트 셸 획득이 가능합니다. 이 취약점은 특정 패치가 적용되지 않은 FreeBSD 13.5, 14.3, 14.4, 15.0 버전에 영향을 미칩니다.

Caelguard: OpenClaw 스킬용 오픈소스 보안 스캐너
Caelguard는 MIT 라이선스를 받은 로컬 실행 스캐너로, OpenClaw 스킬에서 프롬프트 주입, 자격 증명 수집, 난독화된 페이로드 등의 보안 문제를 탐지합니다. 연구에 따르면 게시된 스킬의 약 20%가 우려되는 패턴을 포함하고 있습니다.

클로드를 사용하여 OpenClaw 설정을 감사하면 보안 문제가 드러납니다
한 개발자가 Claude를 사용해 OpenClaw 설치를 검토한 결과, 봇이 메모리와 JSON 파일에 API 키를 평문으로 기록하고 있었으며, 다른 보안 문제들도 발견되었습니다.