Pipeline RAG com MongoDB e Voyage AI: Recepcionista de IA para Oficina

Construindo o Pipeline RAG

O primeiro passo foi criar uma base de conhecimento precisa para evitar alucinações. O desenvolvedor extraiu as páginas de serviços e preços do site da oficina mecânica para arquivos markdown, criando uma base de conhecimento estruturada abrangendo 21+ documentos incluindo tipos de serviços, preços, prazos de entrega, horários, métodos de pagamento, políticas de cancelamento, informações de garantia, veículos de cortesia e marcas de carros especializadas.

Cada documento foi convertido em um vetor de 1024 dimensões usando Voyage AI (voyage-3-large) e armazenado no MongoDB Atlas junto com o texto original, com um índice Atlas Vector Search no campo de embedding.

Quando um cliente faz uma pergunta, a consulta é convertida em embedding usando o mesmo modelo Voyage AI e executada contra o índice Atlas Vector Search, retornando os 3 documentos semanticamente mais similares. Os documentos recuperados são passados como contexto para o Anthropic Claude (claude-sonnet-4-6) com uma instrução de sistema rigorosa: responda apenas com base na base de conhecimento, mantenha as respostas curtas e conversacionais, e se não souber — diga isso e ofereça-se para anotar uma mensagem.

Exemplo de resposta: "Quanto custa uma troca de óleo?" → "US$ 45 para convencional, US$ 75 para sintético. Inclui filtro de óleo, reposição de fluido e verificação da pressão dos pneus. Leva cerca de 30 minutos."

Conectando a uma Linha Telefônica Real

O desenvolvedor usou Vapi como plataforma de voz para lidar com a telefonia: adquirindo um número de telefone, conversão de fala em texto (via Deepgram), conversão de texto em fala (via ElevenLabs) e chamada de função em tempo real de volta ao servidor.

Um servidor webhook FastAPI foi construído com um endpoint /webhook. Quando um chamador faz uma pergunta, o Vapi envia uma solicitação de tool-calls para este endpoint com a consulta do chamador. O servidor encaminha isso para o pipeline RAG, obtém uma resposta do Claude e a envia de volta ao Vapi, que a lê em voz alta para o chamador.

Durante o desenvolvimento, o servidor é executado localmente na porta 8000 e é exposto usando Ngrok, que cria um túnel para uma URL HTTPS pública que é colada no painel do Vapi como o endpoint do webhook.

No painel do Vapi, o assistente foi configurado com uma saudação ("Olá, obrigado por ligar para a Dane's Motorsport, como posso ajudá-lo hoje?") e duas ferramentas: answerQuestion para respostas baseadas em RAG e saveCallback para coletar um nome e número quando uma pergunta não puder ser respondida.

O Vapi envia o histórico completo da conversa com cada solicitação, permitindo memória de conversação.

📖 Read the full source: HN AI Agents

Construindo uma Recepcionista de IA para uma Oficina Mecânica: Pipeline RAG e Integração de Voz

Construindo o Pipeline RAG

Conectando a uma Linha Telefônica Real

👀 See Also

Episódio 9 de Construindo uma Loja Gerenciada por IA: Coordenação Multiagente para Agentes de Código Claude

Claude AI Adota Terminologia Personalizada de Especificações de 300 Páginas Sem Solicitação

O usuário do OpenClaw automatiza a formatação de conteúdo multiplataforma com habilidade personalizada

Usuário do OpenClaw Propõe Compressão de Memória 'Ciclo de Sono' para Agentes de IA