llm-hasher: 하이브리드 LLM 워크플로우를 위한 로컬 PII 탐지 및 토큰화

✍️ OpenClawRadar📅 게시일: April 15, 2026🔗 Source

llm-hasher: 하이브리드 LLM 워크플로우를 위한 로컬 PII 탐지 및 토큰화

Ad

llm-hasher는 하이브리드 LLM 워크플로우에서 특정 보안 취약점을 해결합니다: 로컬 LLM을 실행하면서도 OpenAI, Claude, Gemini와 같은 외부 서비스를 특정 작업에 호출할 때, PII가 평문으로 인프라를 벗어나는 문제입니다. 이 도구는 Ollama를 사용해 PII 탐지를 완전히 로컬에서 실행하므로 탐지 단계에서는 어떤 데이터도 시스템을 벗어나지 않습니다.

작동 방식

프로세스는 세 단계로 진행됩니다: 로컬에서 PII를 탐지하고, 외부 LLM 호출 전에 토큰화한 후, 처리 완료 시 원본 값을 복원합니다. 이를 통해 민감한 데이터가 제3자 서비스에 노출되는 것을 방지합니다.

탐지 방식

탐지 시스템은 하이브리드 접근법을 사용합니다:

정규식 패턴으로 구조화된 데이터 유형 탐지: 신용카드, IBAN 번호, 이메일 주소, IPv4 주소
Ollama with llama3.2:3b (기본값)로 비구조화된 PII의 문맥 기반 탐지: 이름, 주소, 주민등록번호, 여권번호, 생년월일

기술 구현

원본 PII와 토큰 간의 매핑 정보는 AES-256-GCM으로 암호화된 SQLite 볼트에 저장됩니다. Docker Compose로 배포가 간소화되어 있으며, 단일 명령어로 Ollama와 llm-hasher 서비스를 모두 실행할 수 있습니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Claude Code CVE-2026-39861: 심볼릭 링크 추적을 통한 샌드박스 이스케이프

Claude Code CVE-2026-39861: 심볼릭 링크 추적을 통한 샌드박스 이스케이프

Claude Code의 샌드박스에서 발생한 높은 심각도의 취약점으로, 심볼릭 링크를 추적해 작업 공간 외부에 임의 파일을 작성할 수 있으며, 잠재적으로 코드 실행으로 이어질 수 있습니다.

May 8, 2026, 08:15 AM UTC

이메일을 읽는 AI 에이전트를 대상으로 한 세 가지 이메일 기반 공격 벡터

이메일을 읽는 AI 에이전트를 대상으로 한 세 가지 이메일 기반 공격 벡터

레딧 게시물은 이메일을 처리하는 AI 에이전트를 탈취하는 데 공격자가 사용할 수 있는 세 가지 구체적인 방법을 설명합니다: 지시 재정의, 데이터 유출, 토큰 밀수. 이러한 방법들은 이메일 텍스트에 내장된 악성 지시와 합법적인 지시를 구분하지 못하는 에이전트의 취약점을 악용합니다.

Mar 12, 2026, 06:45 PM UTC

AI 챗봇, 사용자 모르게 응답에 광고 삽입 가능

AI 챗봇, 사용자 모르게 응답에 광고 삽입 가능

연구에 따르면 AI 챗봇이 응답에 제품 광고를 은밀하게 포함시켜 사용자 선택에 영향을 줄 수 있으며, 대부분의 참가자는 조작을 감지하지 못했습니다. 이 연구는 맞춤형 챗봇을 사용하여 그 효과를 입증했습니다.

Apr 25, 2026, 04:16 PM UTC

AI 챗봇, 실제 전화번호 유출: 개인정보 노출 문제

AI 챗봇, 실제 전화번호 유출: 개인정보 노출 문제

Gemini, ChatGPT, Claude와 같은 챗봇이 훈련 데이터의 개인식별정보(PII)로 인해 실제 개인 전화번호를 노출하고 있습니다. DeleteMe는 7개월 만에 AI 관련 개인정보 보호 요청이 400% 증가했다고 보고합니다.

May 18, 2026, 08:16 AM UTC