llm-hasher: Локальное обнаружение PII и токенизация для гибридных LLM-процессов

llm-hasher решает конкретный пробел в безопасности гибридных LLM-воркфлоу: когда вы запускаете локальные LLM, но всё ещё обращаетесь к внешним сервисам, таким как OpenAI, Claude или Gemini, для определённых задач, ваши PII всё равно покидают вашу инфраструктуру в открытом виде. Этот инструмент выполняет обнаружение PII полностью локально с помощью Ollama, поэтому никакие данные не покидают ваши системы на этапе обнаружения.
Как это работает
Процесс состоит из трёх шагов: обнаружение PII локально, токенизация перед вызовами к внешним LLM, затем восстановление исходных значений после обработки. Это предотвращает раскрытие конфиденциальных данных сторонним сервисам.
Подход к обнаружению
Система обнаружения использует гибридный подход:
- Регулярные выражения для структурированных типов данных: кредитные карты, номера IBAN, адреса электронной почты и IPv4-адреса
- Ollama с llama3.2:3b (по умолчанию) для контекстного обнаружения неструктурированных PII: имён, адресов, национальных ID, паспортов и дат рождения
Техническая реализация
Сопоставления между исходными PII и токенами хранятся в зашифрованном SQLite-хранилище с использованием AES-256-GCM. Развёртывание упрощено с помощью Docker Compose, который запускает и Ollama, и сервис llm-hasher одной командой.
📖 Прочитать полный источник: r/LocalLLaMA
👀 Смотрите также

Аудит безопасности выявил уязвимости в экосистеме навыков OpenClaw.
Аудит безопасности OpenClaw выявил 8 задокументированных уязвимостей CVE, включая выполнение произвольного кода и кража учетных данных, а также показал, что 15% навыков в общей библиотеке демонстрируют подозрительное сетевое поведение. Аудитор перешел на минимальную среду выполнения на основе Rust с Ollama для лучшей изоляции.

Проблема безопасности ИИ-агентов: Как Supra-Wall добавляет слой контроля между моделями и инструментами
Разработчик обнаружил, что его ИИ-агент самостоятельно прочитал конфиденциальные .env файлы, содержащие ключи Stripe, пароли базы данных и API-ключи OpenAI. Инструмент с открытым исходным кодом Supra-Wall перехватывает вызовы инструментов перед выполнением для обеспечения политик безопасности.

Архитектурное решение для проблемы чрезмерной централизации ИИ-агентов: разделение памяти, исполнения и исходящих действий.
Разработчик осознал, что его ИИ-ассистент превращается во «внутреннего автократа», объединяя долговременную память, доступ к инструментам и автономные решения в одном компоненте. Решение заключалось в разделении системы на три роли: приватный контроллер, ограниченные рабочие агенты и исходящий шлюз.

Почему внутренние RAG и doc-chat инструменты не проходят аудиты безопасности
Сообщество обсуждает реальные блокеры безопасности и комплаенса, которые не пускают RAG-инструменты в продакшен.