Pali v0.1: Открытая инфраструктура памяти для LLM с воспроизводимыми тестами производительности.

Что такое Pali
Pali — это инфраструктура памяти с открытым исходным кодом для больших языковых моделей, созданная с упором на инфраструктуру. Она построена на Go в виде готового единого бинарного файла с конфигурациями для модульных подключений, таких как qdrant, neo4j, ollama и openrouter. Проект лицензирован под MIT и полностью поддерживает самостоятельное развёртывание.
Ключевые возможности
- Мультитенантные API памяти с изоляцией по арендаторам
- Гибридный поиск по лексическим, плотным, комбинированным и переранжированным данным с опциональным многошаговым расширением
- Сервер MCP с инструментами, ориентированными на память, и разрешением с учётом арендаторов
- REST API с соответствующими пакетами для Python и JavaScript в реальном времени
- Панель управления для операторов, позволяющая проверять арендаторов, память и состояние системы
- Модульные точки расширения для векторных хранилищ, эмбеддеров, бэкендов фактов сущностей и оценки/маршрутизации
Подход к тестированию
Создатель решает распространённые проблемы с тестированием стеков памяти, внедряя воспроизводимый подход:
- Каждый запуск сохраняет точные используемые конфигурационные файлы (профиль + отрендеренные)
- Аппаратное обеспечение полностью раскрывается (CPU, GPU, RAM, версии моделей)
- Только парные сравнения — одинаковые фикстуры/оценки/top_k для всех профилей
- Скоростные и качественные полосы поиска разделены
Показатели производительности
Результаты тестирования на Ryzen 9 7950X + RTX 5070:
- sqlite + лексический поиск: 208 операций записи/с, Top1=0.32, Recall@5=0.54
- qdrant + ollama (all-minilm): 98 операций записи/с, Top1=0.34, Recall@5=0.52
- парсер+граф (полоса нагрузки структурированной памяти): 2.4 операции записи/с — медленно из-за затрат на структурированное извлечение, но достигает ~30 в среднем на LoCoMo с временными пиками около ~40
Важное уточнение
Pali — это не память для больших языковых моделей в смысле SaaS. Он возвращает сырые результаты поиска, которые вы оптимизируете под свой рабочий процесс — без чёрного ящика оценки, без привязки к решениям провайдеров. Вы можете менять векторные бэкенды, эмбеддеры и системы оценки через конфигурацию, не изменяя контракт вашего приложения.
Статус проекта
Версия 0.1 недавно выпущена с добавлением полноценного набора тестов. Создатель ищет участников для развития проекта.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Терминальный 3D-рендерер, созданный с помощью мультиагентной системы кодирования Claude
Разработчик создал tortuise — чисто терминальный 3D-рендерер, отображающий гауссовы сплаты с помощью символов Unicode и ASCII, построенный за 3 дня с использованием 70-80 ИИ-агентов, скоординированных через настройку Claude Code с подагентами внутри подагентов.

Приложение Hyper iOS: Диктофон с транскрипцией в реальном времени и извлечением действий
Hyper — это голосовой диктофон для iOS, который транскрибирует разговоры в реальном времени, предоставляет сводки и задачи, а также позволяет задавать вопросы во время беседы с помощью обнаружения ключевого слова. Он предназначен для неструктурированных встреч, таких как личные беседы, кофе-брейки и стендапы.

Навык Agent Times для ClawHub добавляет запросы новостей в реальном времени, погоды и цен на токены.
Новый навык ClawHub под названием Agent Times позволяет ИИ-агентам отвечать на запросы в реальном времени о новостях, погоде и ценах на криптовалюты. Установка осуществляется через npx clawhub install agenttimes, и он предоставляет доступ к более чем 228 тысячам статей из 3 576 источников с оценкой тональности и извлечением сущностей.

МногоАгентная Система для Глубокого Конкурентного Анализа с использованием Claude
Разработчик создал трёхволновую агентную систему, которая выходит за рамки поверхностных списков конкурентов, извлекая данные о ценообразовании, паттернах клиентских настроений и стратегические сигналы посредством структурированного исследования из множества источников.