RAG-Chatbot-Optimierung: 79% Kosten senken, 19% Qualität steigern

Ein Reddit-Nutzer führte eine vollständige Evaluierung eines RAG-Chatbots für den Kundensupport durch, der auf ChromaDB mit einem standardmäßigen Ähnlichkeitsschwellenwert von 0,7 (Cosinus-Distanz) lief und Gemini 3.1 Flash Lite Preview zur Generierung verwendete. Sie stellten fest, dass das teuerste Modell die schlechteste Leistung erbrachte und dass mehrere nicht offensichtliche Änderungen tatsächlich den Unterschied ausmachten.

Abrufprobleme tarnen sich als LLM-Probleme

Der Bot antwortete mit „Ich habe keine spezifischen Informationen über die Dienstleistungen unseres Unternehmens“, wenn Nutzer lockere Einstiegsfragen wie „Hey, was macht ihr eigentlich?“ stellten. Der Instinkt war, Prompts anzupassen oder Modelle auszutauschen, aber die Ursache lag im Abruf: Der Ähnlichkeitsschwellenwert in ChromaDB war auf 0,7 gesetzt (Cosinus-Distanz, niedriger = ähnlicher, also tatsächlich streng). Lockere Einstiegsfragen erzeugten keine Embeddings, die nah genug an einem Chunk lagen, sodass keine Dokumente abgerufen wurden. Die Lehre: Protokollieren, welchen Kontext das LLM tatsächlich erhalten hat, bevor man die Generierung beschuldigt. Wenn der Abruf nichts zurückgibt, hilft auch die beste Prompt-Entwicklung nicht.

Heuristische Bewerter sind schlechter als gar keine

Schlüsselwortabgleich und Quellenreferenzzählung lieferten Zahlen ohne Korrelation zur Nutzerzufriedenheit. Der Autor wechselte zu einem LLM-Richter (Claude Haiku 4.5 über OpenRouter), der Relevanz, Genauigkeit, Hilfsbereitschaft und Gesamteindruck auf einer Skala von 0-10 bewertet. Kosten: ein paar Cent pro vollständigem Durchlauf.

Chunks deduplizieren

In zwei Durchgängen befanden sich drei nahezu identische FAQ-Chunks im Kontextfenster. Das Hinzufügen einer Prüfung auf >80 % Token-Überlappung aus derselben Quelldatei bereinigte den Kontext, reduzierte die Token und stoppte in einem Durchgang eine Halluzination von Produktnamen.

Strengerer Grounding-Kompromiss

Das Hinzufügen einer Regel, dass der Agent nur Fakten aus abgerufenen Dokumenten verwendet, verbesserte die Genauigkeit, reduzierte jedoch die Hilfsbereitschaft bei Wissenslücken: Der Bot begann zu sagen „Die Dokumente spezifizieren dies nicht, kontaktieren Sie den Support“, anstatt zu raten. Der Autor merkt an, dass dies die richtige Entscheidung für einen faktenbasierten Support-Bot ist, aber bewusst getroffen werden muss.

Modell-Sweep-Ergebnisse

Das Ausführen derselben Evaluierungsumgebung über 5 Modelle hinweg zeigte, dass Gemma 4 26B einen Wert von 7,88 erzielte im Vergleich zu den ursprünglichen 7,33 von Gemini 3.1 Flash Lite Preview – und 75 % weniger pro Sitzung kostete. Mistral Small 3.2 war knapp Zweiter. Nova Micro war am günstigsten, aber knappe Antworten wurden bestraft, weil sie nicht umsetzbar waren. Insgesamt verbesserte sich die Qualität von 6,62 auf 7,88 (+19 %) und die Kosten sanken von 0,002420 $ auf 0,000509 $ pro Sitzung (−79 %).

Die gesamte Evaluierung wurde mit Neo AI Engineer durchgeführt, der die Evaluierungsumgebung baute, checkpointgesteuerte Läufe handhabte, Zeitüberschreitungs- und Kontextlimitprobleme löste und Ergebnisse zusammenfasste. Der Autor überprüfte alles manuell.

📖 Read the full source: r/LocalLLaMA