Гибридный поиск с использованием RRF улучшает систему памяти ИИ по сравнению с чистым векторным поиском.

Разработана система памяти с открытым исходным кодом для ИИ-ассистентов, использующая PostgreSQL с pgvector в локальной, самостоятельно размещаемой конфигурации. Система хранит информацию для запоминания ИИ-ассистентами между сессиями и делает её доступной для поиска.
Почему чистого векторного поиска было недостаточно
Разработчик начал с чистого векторного поиска: преобразование запросов в эмбеддинги, использование косинусного сходства и возврат топ-k результатов. Хотя это работало для расплывчатых вопросов, оно постоянно давало сбой на точных совпадениях. Например, поиск "RRF merging" возвращал фрагменты о "combining ranked lists" месячной давности вместо документа, который буквально содержит "RRF merging".
Решение гибридного поиска
Решение включало добавление второго компонента поиска: полнотекстовый поиск с использованием tsvector PostgreSQL с индексом GIN. Это сопоставление по ключевым словам улавливает то, что пропускает векторный поиск. Однако это создало два ранжированных списка, которые нужно было объединить.
Reciprocal Rank Fusion (RRF)
Reciprocal Rank Fusion оказался решением для объединения двух ранжированных списков. Формула проста: оценка = 1 / (k + ранг), где k=60 (стандартное значение). Результаты, появляющиеся в обоих списках, получают сумму обеих оценок. Этот подход не требует настройки весов и нормализации оценок между косинусным сходством и ts_rank — он использует только позиции рангов.
Техника обогащения запросов
Перед поиском система пропускает запросы через токенизатор WordPiece модели эмбеддингов для извлечения ключевых терминов (многосоставные токены, которые, вероятно, являются техническими или предметными терминами). Это генерирует до 3 вариантов запроса, преобразует их все в эмбеддинги и выполняет поиск параллельно. Это позволяет находить результаты, которые могли быть пропущены при одной формулировке.
Технологический стек
- PostgreSQL 16 + pgvector (индекс HNSW для векторов, индекс GIN для полнотекстового поиска)
- all-MiniLM-L6-v2 для эмбеддингов (384 измерения, работает на CPU)
- Python с асинхронным psycopg 3
- 3 адаптера для загрузки данных: markdown, обычный текст и JSON диалогов Claude
Вся система работает локально без вызовов API для эмбеддингов и без зависимостей от облачных сервисов. Код недавно выпущен, и разработчик написал подробный пост в блоге о полном подходе.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Меморин: Локальная система памяти для агентов OpenClaw с использованием Python и SQLite
Memorine — это локальная система памяти для агентов OpenClaw, использующая только Python и SQLite, без внешних зависимостей, API-вызовов или телеметрии. Она предоставляет хранение фактов с полнотекстовым поиском, затухание памяти, обнаружение противоречий, причинно-следственное связывание событий и опциональный семантический поиск через fastembed и sqlite-vec.

Канарейка: ИИ-агент для автоматизированного тестирования на основе изменений в коде
Canary — это ИИ-агент для контроля качества, который читает кодовые базы, анализирует различия в пул-реквестах и генерирует сквозные тесты для затронутых пользовательских сценариев. Он подключается к предпросмотрам сред, запускает тесты и комментирует результаты прямо в PR с записями.

Бесплатный MCP позволяет Клоду автоматически анализировать данные Google Search Console
Бесплатный MCP-сервер (Model Context Protocol) позволяет Клоду напрямую запрашивать данные Google Search Console для любого сайта, к которому у вас есть доступ. Спрашивайте о запросах, страницах, кликах, показах, CTR и позициях без ручного экспорта CSV.

Запуск Альфреда Бета: Упрощённая альтернатива OpenClaw для нетехнических пользователей
Alfred — это новый бета-инструмент, который предоставляет примерно 70% функциональности OpenClaw при значительно меньшей сложности, предлагая простые настройки по умолчанию для подключения приложений, памяти, режимов использования и инфраструктуры, а также позволяя кастомизацию.