Caliby: Banco de Dados Vetorial 4x Mais Rápido que pgvector

Caliby agora é open-source: um banco de dados vetorial embutido e em processo projetado para cargas de trabalho de Agentes de IA e RAG. Desenvolvido por uma equipe que inclui um PhD do Grupo de Banco de Dados do MIT (equipe de Michael Stonebraker) e a Sea-Land AI, é uma única biblioteca C++ com bindings para Python.

Por que outro banco vetorial?

A equipe considerou as soluções existentes insuficientes para casos de uso com agentes/LLM:

FAISS: Puramente em memória, sem persistência — reiniciar limpa o índice.
pgvector: Teto de desempenho devido à dependência do PostgreSQL.
Chroma / Qdrant / Milvus: Exigem serviços separados, muito pesados para cenários embutidos.
LanceDB: Embutido, mas carece de índices avançados como DiskANN, gargalos de desempenho.

Caliby visa ser um mecanismo de dados leve e incorporável como o DuckDB, mas para armazenamento de vetores + texto.

Arquitetura: Armazenamento Híbrido de Texto + Vetores

Caliby unifica dados de texto e vetores em um único sistema. Em vez de gerenciar um banco vetorial e um banco relacional separadamente, você armazena embeddings, texto bruto e metadados em uma única biblioteca. A arquitetura usa um pool de buffers organizado por páginas para persistência.

Índices Suportados

HNSW: Recuperação geral de alto desempenho, otimizado para CPU.
DiskANN (Grafo Vamana): Projetado para cenários baseados em disco, supera FAISS em disco.
IVF+PQ: Arquivo invertido com quantização de produto para índices compactos.

Caliby também suporta busca por força bruta com funções de distância SIMD (AVX-512, AVX2, SSE) (L2, Produto Interno, Cosseno).

Alegações de Desempenho

Caliby supera o pgvector em 4x e ultrapassa significativamente o FAISS em cenários de armazenamento em disco. Ele lida com milhões a dezenas de milhões de vetores em disco sem exigir um serviço separado.

Primeiros Passos

Simplesmente instale o pacote:

pip install caliby

A API Python expõe as classes HnswIndex, DiskANN e IVFPQIndex via pybind11. Sem dependências, sem configuração de servidor, sem DevOps.

Para Quem É

Desenvolvedores de Agentes de IA e construtores de pipelines RAG que desejam um banco de dados vetorial embutido, com zero infraestrutura e capacidades híbridas de texto+vetores com desempenho de nível de produção.

📖 Leia a fonte completa: r/LocalLLaMA

Caliby: Banco de Dados Vetorial Embarcado de Código Aberto para Agentes de IA com Armazenamento Híbrido de Texto + Vetor

Por que outro banco vetorial?

Arquitetura: Armazenamento Híbrido de Texto + Vetores

Índices Suportados

Alegações de Desempenho

Primeiros Passos

Para Quem É

👀 See Also

free-claude-code adiciona suporte GLM-5 via NVIDIA NIM e se expande para OpenRouter e Discord

Meu Agente Construiu para Si um Sistema de Interocepção — Agora Ele Tem Desejos

Gerenciador de projetos estilo Trello local para agentes OpenClaw usando arquivos markdown

Sou compatível com OpenAI: Ferramentas e Documentos para Assinaturas de API Unificadas