AI 챗봇, 실제 전화번호 유출: 개인정보 노출 문제

AI 챗봇이 실제 사람들의 전화번호를 노출하고 있습니다. 한 Reddit 사용자는 변호사나 자물쇠 수리공을 찾는 낯선 사람들의 전화가 쇄도했다고 보고했는데, 이는 Google의 Gemini가 잘못 안내한 결과였습니다. 3월에는 이스라엘의 소프트웨어 엔지니어가 Gemini가 자신의 개인 번호를 PayBox 고객 서비스 번호로 제공한 후 WhatsApp으로 연락을 받았습니다. 4월에는 한 박사 과정 학생이 Gemini를 통해 동료의 휴대폰 번호를 출력해냈습니다.
어떻게 발생하는가
LLM은 개인식별정보가 포함된 웹 스크래핑 데이터로 훈련됩니다. 기사에 따르면 오픈소스 DataComp CommonPool 데이터세트에는 이력서, 운전면허증, 신용카드 정보가 포함되어 있습니다. 온라인에 게시된 전화번호(예: 2015년 Q&A 사이트)의 단일 인스턴스라도 몇 년 후에 재현될 수 있습니다.
문제의 규모
인터넷에서 개인 정보 제거를 지원하는 DeleteMe는 지난 7개월 동안 AI 관련 개인정보 보호 문의가 400% 증가하여 수천 건에 달했다고 보고합니다. 세부 구성: 55%가 ChatGPT, 20% Gemini, 15% Claude, 10% 기타를 언급합니다. 두 가지 일반적인 시나리오는 사용자가 자신에 대해 질문하고 정확한 주소/전화번호 데이터를 얻거나, 챗봇이 다른 사람에 대해 그럴듯하지만 잘못된 연락처 정보를 생성하는 경우입니다.
Rob Shavell(DeleteMe 공동 창립자)은 일반적으로 사용자가 자신에 대해 무해한 질문을 했을 때 챗봇이 정확한 주소, 전화번호, 가족 이름 또는 고용주 세부 정보를 반환하는 경우가 불만 사항이라고 말합니다.
해결 방안
전문가들은 근본 원인이 훈련 데이터의 개인식별정보라고 말하지만 정확한 메커니즘은 불분명합니다. 사용자가 노출을 방지하기 위해 할 수 있는 일은 거의 없습니다. 기사는 AI 회사들이 새로운 데이터 소스를 찾음에 따라 문제가 악화될 것이라고 제안합니다.
📖 전체 출처 읽기: HN AI Agents
👀 See Also

Smart Bash Permission Hook for Claude Code Prevents Compound Command Bypass
A Python PreToolUse hook addresses a security gap in Claude Code's permission system where compound bash commands could bypass allow/deny patterns. The script decomposes commands into sub-commands and checks each individually against existing permission rules.

로컬 에이전트 API 키 보안을 위한 프록시 계층 격리
한 개발자가 로컬 에이전트 설정(Claude Code / Cursor 스타일 워크플로우)을 실험하며 대부분의 스택이 환경 변수나 <code>.env</code> 파일을 통해 API 키를 노출하여, 어떤 도구, 플러그인 또는 프롬프트 주입 코드라도 자격 증명을 읽을 수 있는 보안 위험을 초래한다는 점을 발견했습니다.

OpenClaw 사용자, 에이전트가 API 키를 평문으로 노출한 후 TOTP 2FA 추가
OpenClaw 사용자가 'Secure Reveal'이라는 보안 스킬을 만들었습니다. 이 스킬은 저장된 자격 증명을 표시하기 전에 Telegram을 통한 TOTP 인증을 요구합니다. 이는 사용자의 AI 에이전트가 데모 중에 API 키와 비밀번호를 평문으로 실수로 유출한 사건 이후 개발되었습니다.

비탈릭 부테린의 안전한 로컬 LLM 설정 접근법
비탈릭 부테린은 데이터 유출 및 제일브레이크와 같은 프라이버시 위험을 완화하기 위해 로컬 추론, 샌드박싱에 초점을 맞춘 자체 주권적 LLM 구축 방안을 제시합니다.