Caliby: Base de Datos Vectorial Embebida Open Source 4x más Rápida que pgvector

Caliby ahora es de código abierto: una base de datos vectorial incrustada y en proceso diseñada para cargas de trabajo de IA Agente y RAG. Desarrollado por un equipo que incluye a un doctor del Grupo de Bases de Datos del MIT (equipo de Michael Stonebraker) y Sea-Land AI, es una única biblioteca en C++ con enlaces a Python.

¿Por qué otro vector DB?

El equipo encontró que las soluciones existentes no eran suficientes para casos de uso de agentes/LLM:

FAISS: Puramente en memoria, sin persistencia — reiniciar borra el índice.
pgvector: Techo de rendimiento debido a la dependencia de PostgreSQL.
Chroma / Qdrant / Milvus: Requieren servicios separados, demasiado pesados para escenarios incrustados.
LanceDB: Incrustado pero carece de índices avanzados como DiskANN, cuellos de botella de rendimiento.

Caliby aspira a ser un motor de datos ligero e incrustable como DuckDB, pero para almacenamiento de vectores + texto.

Arquitectura: Almacenamiento Híbrido Texto + Vectores

Caliby unifica datos de texto y vectores en un solo sistema. En lugar de lidiar con una base de datos vectorial y una relacional, almacenas embeddings, texto sin formato y metadatos en una sola biblioteca. La arquitectura usa un pool de buffers organizado por páginas para la persistencia.

Índices Soportados

HNSW: Recuperación general de alto rendimiento, optimizado para CPU.
DiskANN (Vamana Graph): Diseñado para escenarios en disco, supera a FAISS en disco.
IVF+PQ: Archivo invertido con cuantificación de producto para índices compactos.

Caliby también soporta búsqueda por fuerza bruta con funciones de distancia SIMD (AVX-512, AVX2, SSE) (L2, Producto Interno, Coseno).

Afirmaciones de Rendimiento

Caliby supera a pgvector por 4x y supera significativamente a FAISS en escenarios de almacenamiento en disco. Maneja millones a decenas de millones de vectores en disco sin requerir un servicio separado.

Primeros Pasos

Simplemente instala el paquete:

pip install caliby

La API de Python expone las clases HnswIndex, DiskANN y IVFPQIndex a través de pybind11. Sin dependencias, sin configuración de servidor, sin DevOps.

Para Quién Es

Desarrolladores de IA Agente y constructores de pipelines RAG que quieren una base de datos vectorial incrustada, sin infraestructura, con capacidades híbridas de texto+vectores y rendimiento de nivel productivo.

📖 Leer la fuente completa: r/LocalLLaMA

Caliby: Base de datos vectorial embebida de código abierto para agentes de IA con almacenamiento híbrido de texto+vector

¿Por qué otro vector DB?

Arquitectura: Almacenamiento Híbrido Texto + Vectores

Índices Soportados

Afirmaciones de Rendimiento

Primeros Pasos

Para Quién Es

👀 Ver también

Habilidades de Código Claude de Código Abierto para Contenido Personalizado en Redes Sociales

Extracción de Componentes de OpenClaw: La Experiencia de un Desarrollador con la Cola de Carriles y el Sistema de Memoria

Mercado MCP Construido con Claude Code Incluye Escaneo de Seguridad y Monetización

Cinco complementos de OpenClaw que abordan problemas centrales de producción.