llm-hasher: локальное обнаружение PII и токенизация для LLM

llm-hasher решает конкретный пробел в безопасности гибридных LLM-воркфлоу: когда вы запускаете локальные LLM, но всё ещё обращаетесь к внешним сервисам, таким как OpenAI, Claude или Gemini, для определённых задач, ваши PII всё равно покидают вашу инфраструктуру в открытом виде. Этот инструмент выполняет обнаружение PII полностью локально с помощью Ollama, поэтому никакие данные не покидают ваши системы на этапе обнаружения.

Как это работает

Процесс состоит из трёх шагов: обнаружение PII локально, токенизация перед вызовами к внешним LLM, затем восстановление исходных значений после обработки. Это предотвращает раскрытие конфиденциальных данных сторонним сервисам.

Подход к обнаружению

Система обнаружения использует гибридный подход:

Регулярные выражения для структурированных типов данных: кредитные карты, номера IBAN, адреса электронной почты и IPv4-адреса
Ollama с llama3.2:3b (по умолчанию) для контекстного обнаружения неструктурированных PII: имён, адресов, национальных ID, паспортов и дат рождения

Техническая реализация

Сопоставления между исходными PII и токенами хранятся в зашифрованном SQLite-хранилище с использованием AES-256-GCM. Развёртывание упрощено с помощью Docker Compose, который запускает и Ollama, и сервис llm-hasher одной командой.

📖 Прочитать полный источник: r/LocalLLaMA

llm-hasher: Локальное обнаружение PII и токенизация для гибридных LLM-процессов

Как это работает

Подход к обнаружению

Техническая реализация

👀 Смотрите также

Прокси-уровневая изоляция для обеспечения безопасности локальных API-ключей агента

Anthropic сообщает о промышленных масштабах атак методом дистилляции на Claude со стороны китайских лабораторий ИИ.

OpenClaw 2026.3.28 исправляет 8 уязвимостей в системе безопасности, включая критическую уязвимость, позволяющую повысить привилегии.

Не доверяйте ИИ больше, чем человеку — применяйте те же средства контроля доступа