5 уроков внедрения RAG-ботов в регулируемых отраслях

Ключевые детали реализации

В этом кейсе рассматривается внедрение ИИ-ассистента на основе RAG для обеспечения соответствия требованиям на австралийских рабочих местах, включая строительные площадки, учреждения по уходу за пожилыми и горнодобывающие предприятия.

Технические уроки

Расширение запросов важнее размера фрагментов: Вместо того чтобы зацикливаться на размере фрагментов (400 слов? 512 токенов?), разработчик обнаружил, что генерация 4 альтернативных формулировок каждого запроса через Haiku, запуск всех 4 в ChromaDB, а затем объединение и удаление дубликатов результатов значительно улучшило качество поиска. Это было особенно эффективно для узкоспециализированного жаргона, где пользователи формулируют запросы иначе, чем авторы документов.
Повышение приоритета для именованных документов: Если запрос пользователя содержит слова, совпадающие с заголовком проиндексированного документа, принудительно включайте фрагменты из этого документа независимо от семантического сходства. Например, запрос «Что говорится в нашей политике FIFO о рейсах R&R?» всегда должен извлекать информацию из политики FIFO — а не только из семантически похожих фрагментов, которые случайно упоминают рейсы.
Используйте многоуровневые промпты — не позволяйте клиентам нарушать Уровень 1: Реализована трёхуровневая система: основные правила безопасности (неизменяемые), отраслевая специфика (сменная для каждой индустрии), пользовательские инструкции клиента (только добавляемые). Клиенты не могут переопределить Уровень 1 через свои пользовательские инструкции. Это предотвратило атаки типа «игнорировать предыдущие инструкции» и случайный взлом собственных ботов клиентами.
Локальные эмбеддинги достаточно хороши: Использовался sentence-transformers all-MiniLM-L6-v2, работающий локально на ChromaDB без внешнего API эмбеддингов. Для вопросно-ответной работы с документами в конкретной области он работает почти так же хорошо, как ada-002, что оправдывает экономию затрат и снижение задержек. Качество LLM (Claude Haiku) в любом случае играет более важную роль, чем эмбеддинги.
Одна виртуальная машина на клиента: Сначала пробовали общую инфраструктуру, но обнаружили, что операционные затраты на изоляцию коллекций ChromaDB, управление API-ключами и предотвращение перекрестного загрязнения были хуже, чем просто развертывание виртуальной машины за $6/мес. на клиента. Каждый клиент владеет своим векторным хранилищем, и его документы никогда не касаются общей инфраструктуры.

Разработчик выложил движок RAG на GitHub для изучения другими.

📖 Read the full source: r/LocalLLaMA

Практические уроки от внедрения RAG-ботов в регулируемых отраслях

Ключевые детали реализации

Технические уроки

👀 Смотрите также

Однокнопочное облачное хостинг для агентов OpenClaw AI

Создание 7-агентного AI торгового стола с OpenClaw

Создание системы отладки на базе Slack для нетехнических пользователей Claude

Использование SkyClaw с Google Таблицами для управления процессом подачи заявок на работу