KI-Rezeptionistin Axle: RAG-Pipeline mit MongoDB & Voyage AI

Aufbau der RAG-Pipeline

Der erste Schritt war die Erstellung einer präzisen Wissensdatenbank, um Halluzinationen zu verhindern. Der Entwickler scrapte die Service-Seiten und Preisinformationen der Werkstatt-Website in Markdown-Dateien und erstellte so eine strukturierte Wissensdatenbank mit über 21 Dokumenten, die Servicearten, Preise, Bearbeitungszeiten, Öffnungszeiten, Zahlungsmethoden, Stornierungsbedingungen, Garantieinformationen, Leihfahrzeuge und spezielle Automarken abdeckt.

Jedes Dokument wurde mithilfe von Voyage AI (voyage-3-large) in einen 1024-dimensionalen Vektor umgewandelt und zusammen mit dem Rohtext in MongoDB Atlas gespeichert, wobei ein Atlas Vector Search-Index auf dem Embedding-Feld angelegt wurde.

Wenn ein Kunde eine Frage stellt, wird die Abfrage mit demselben Voyage AI-Modell eingebettet und gegen den Atlas Vector Search-Index ausgeführt, wodurch die drei semantisch ähnlichsten Dokumente zurückgegeben werden. Die abgerufenen Dokumente werden als Kontext an Anthropic Claude (claude-sonnet-4-6) weitergegeben, mit einer strikten Systemaufforderung: antworte nur aus der Wissensdatenbank, halte Antworten kurz und gesprächsorientiert, und wenn du es nicht weißt – sage es und biete an, eine Nachricht aufzunehmen.

Beispielantwort: "Wie viel kostet ein Ölwechsel?" → "45 $ für konventionelles, 75 $ für synthetisches Öl. Inklusive Ölfilter, Flüssigkeitsauffüllung und Reifendruckkontrolle. Dauert etwa 30 Minuten."

Anschluss an eine echte Telefonleitung

Der Entwickler nutzte Vapi als Sprachplattform für die Telefonie: Kauf einer Telefonnummer, Spracherkennung (über Deepgram), Sprachsynthese (über ElevenLabs) und Echtzeit-Funktionsaufrufe zurück zum Server.

Ein FastAPI-Webhook-Server wurde mit einem /webhook-Endpunkt erstellt. Wenn ein Anrufer eine Frage stellt, sendet Vapi eine Tool-Calls-Anfrage an diesen Endpunkt mit der Frage des Anrufers. Der Server leitet diese an die RAG-Pipeline weiter, erhält eine Antwort von Claude und sendet sie zurück an Vapi, die sie dem Anrufer vorliest.

Während der Entwicklung läuft der Server lokal auf Port 8000 und wird über Ngrok verfügbar gemacht, das einen Tunnel zu einer öffentlichen HTTPS-URL erstellt, die als Webhook-Endpunkt in das Vapi-Dashboard eingefügt wird.

Im Vapi-Dashboard wurde der Assistent mit einer Begrüßung ("Hallo, danke für Ihren Anruf bei Dane's Motorsport, wie kann ich Ihnen heute helfen?") und zwei Tools konfiguriert: answerQuestion für RAG-gestützte Antworten und saveCallback zum Sammeln von Name und Nummer, wenn eine Frage nicht beantwortet werden kann.

Vapi sendet bei jeder Anfrage den vollständigen Gesprächsverlauf mit, was Gesprächserinnerung ermöglicht.

📖 Read the full source: HN AI Agents

Aufbau einer KI-Rezeptionistin für eine Autowerkstatt: RAG-Pipeline und Sprachintegration

Aufbau der RAG-Pipeline

Anschluss an eine echte Telefonleitung

👀 Siehe auch

Ein Monat mit OpenClaw: Erfolge bei der Personalisierung und Herausforderungen bei der Stabilität

Entwickler nutzt Claude Code-Agenten, um 635 Probleme in 42 Brettspielen in einer einzigen Sitzung zu lösen.

Claude AI analysiert CSV-Autofahrtdaten ohne spezifische Aufforderungen

Direkte mobile Dokumentenerfassung für OpenClaw: iOS zu Raspberry Pi Gesundheits-Workflow