Caliby: Open-Source eingebettete Vektordatenbank für KI-Agenten mit hybrider Text+Vektor-Speicherung

Caliby ist jetzt Open-Source: eine eingebettete, prozessinterne Vektordatenbank, die für KI-Agenten- und RAG-Workloads entwickelt wurde. Entwickelt von einem Team, das einen PhD von der MIT DB Group (Michael Stonebrakers Team) und Sea-Land AI umfasst, ist es eine einzelne C++-Bibliothek mit Python-Bindungen.
Warum eine weitere Vektordatenbank?
Das Team fand bestehende Lösungen für Agenten-/LLM-Anwendungsfälle unzureichend:
- FAISS: Rein im Arbeitsspeicher, keine Persistenz – ein Neustart löscht den Index.
- pgvector: Leistungsgrenze aufgrund der PostgreSQL-Abhängigkeit.
- Chroma / Qdrant / Milvus: Erfordern separate Dienste, zu schwer für eingebettete Szenarien.
- LanceDB: Eingebettet, aber es fehlen fortgeschrittene Indizes wie DiskANN, Leistungsengpässe.
Caliby zielt darauf ab, eine leichte, einbettbare Daten-Engine wie DuckDB zu sein, jedoch für Vektor- + Textspeicherung.
Architektur: Hybride Text- + Vektorspeicherung
Caliby vereint Text- und Vektordaten in einem einzigen System. Anstatt eine Vektordatenbank und eine relationale Datenbank zu jonglieren, speichern Sie Embeddings, Rohtext und Metadaten in einer Bibliothek. Die Architektur verwendet einen seitenorganisierten Buffer Pool für Persistenz.
Unterstützte Indizes
- HNSW: Allgemeine Hochleistungsabfrage, CPU-optimiert.
- DiskANN (Vamana Graph): Für diskbasierte Szenarien konzipiert, übertrifft FAISS auf der Festplatte.
- IVF+PQ: Invertierte Datei mit Produktquantisierung für kompakte Indizes.
Caliby unterstützt auch Brute-Force-Suche mit SIMD (AVX-512, AVX2, SSE) Distanzfunktionen (L2, InnerProduct, Cosine).
Leistungsbehauptungen
Caliby schlägt pgvector um das 4-fache und übertrifft FAISS in Festplattenspeicher-Szenarien deutlich. Es verarbeitet Millionen bis zehn Millionen Vektoren auf der Festplatte, ohne einen separaten Dienst zu benötigen.
Erste Schritte
Installieren Sie einfach das Paket:
pip install caliby
Die Python-API stellt die Klassen HnswIndex, DiskANN und IVFPQIndex über pybind11 bereit. Keine Abhängigkeiten, keine Serverinstallation, kein DevOps.
Für wen es gedacht ist
KI-Agenten-Entwickler und RAG-Pipeline-Ersteller, die eine einbettbare, infrastrukturlose Vektordatenbank mit hybriden Text+Vektor-Fähigkeiten und produktionsreifer Leistung wünschen.
📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

TestThread: Open-Source-Testframework für KI-Agenten
TestThread ist ein Open-Source-Testframework für KI-Agenten, das Tests gegen Live-Endpunkte ausführt, Pass/Fail-Ergebnisse mit KI-Diagnose liefert und Funktionen wie semantisches Matching, PII-Erkennung und CI/CD-Integration umfasst.

Galadriel: Open-Source Warm-Cache-Harness für persistente Claude-Agenten
Galadriel ist ein 3-stufiger gestapelter Caching-Mechanismus für Claude, der die Kosten um 87 % senkt und die Latenzzeit für 100K-Token-Prompts auf unter 3s drückt. Integriert MemPalace für persistenten Vektorspeicher.

Soul MCP Server fügt lokalen LLMs persistente Speicher und Sicherheit hinzu
Soul ist ein Open-Source-MCP-Server, der lokalen LLMs persistente Speicherung über Sitzungen hinweg ermöglicht, und zwar mit zwei Befehlen: n2_boot zu Beginn und n2_work_end am Ende. Er enthält Ark-Sicherheitsfunktionen, die gefährliche Befehle wie rm -rf und DROP DATABASE ohne Token-Kosten blockieren, sowie eine Cloud-Speicherkonfiguration.

Qwen 3.6 27B F16 besteht den Pacman-Codierungstest, aber 8-Bit-Quantisierungen scheitern — Wichtige Lektionen zu Vorlagen und MTP-spekulativer Dekodierung
Ein Benutzer erledigt einen Pacman-Klon mit Qwen 3.6 27B F16 in einem Durchgang – zwei von drei Versuchen produzieren fast perfekte Spiele. 8-Bit-Quantisierungen scheitern völlig. Detaillierte Notizen zur Chat-Vorlagenoptimierung und zu MTP-Spekulationsdekodierungsgeschwindigkeitssteigerungen.