RAG-Chatbot-Evaluierung: Wie ein Modell-Sweep und Retrieval-Fixes Kosten um 79% senkten und die Qualität um 19% steigerten

✍️ OpenClawRadar📅 Veröffentlicht: 15. Mai 2026🔗 Source
RAG-Chatbot-Evaluierung: Wie ein Modell-Sweep und Retrieval-Fixes Kosten um 79% senkten und die Qualität um 19% steigerten
Ad

Ein Reddit-Nutzer führte eine vollständige Evaluierung eines RAG-Chatbots für den Kundensupport durch, der auf ChromaDB mit einem standardmäßigen Ähnlichkeitsschwellenwert von 0,7 (Cosinus-Distanz) lief und Gemini 3.1 Flash Lite Preview zur Generierung verwendete. Sie stellten fest, dass das teuerste Modell die schlechteste Leistung erbrachte und dass mehrere nicht offensichtliche Änderungen tatsächlich den Unterschied ausmachten.

Abrufprobleme tarnen sich als LLM-Probleme

Der Bot antwortete mit „Ich habe keine spezifischen Informationen über die Dienstleistungen unseres Unternehmens“, wenn Nutzer lockere Einstiegsfragen wie „Hey, was macht ihr eigentlich?“ stellten. Der Instinkt war, Prompts anzupassen oder Modelle auszutauschen, aber die Ursache lag im Abruf: Der Ähnlichkeitsschwellenwert in ChromaDB war auf 0,7 gesetzt (Cosinus-Distanz, niedriger = ähnlicher, also tatsächlich streng). Lockere Einstiegsfragen erzeugten keine Embeddings, die nah genug an einem Chunk lagen, sodass keine Dokumente abgerufen wurden. Die Lehre: Protokollieren, welchen Kontext das LLM tatsächlich erhalten hat, bevor man die Generierung beschuldigt. Wenn der Abruf nichts zurückgibt, hilft auch die beste Prompt-Entwicklung nicht.

Heuristische Bewerter sind schlechter als gar keine

Schlüsselwortabgleich und Quellenreferenzzählung lieferten Zahlen ohne Korrelation zur Nutzerzufriedenheit. Der Autor wechselte zu einem LLM-Richter (Claude Haiku 4.5 über OpenRouter), der Relevanz, Genauigkeit, Hilfsbereitschaft und Gesamteindruck auf einer Skala von 0-10 bewertet. Kosten: ein paar Cent pro vollständigem Durchlauf.

Ad

Chunks deduplizieren

In zwei Durchgängen befanden sich drei nahezu identische FAQ-Chunks im Kontextfenster. Das Hinzufügen einer Prüfung auf >80 % Token-Überlappung aus derselben Quelldatei bereinigte den Kontext, reduzierte die Token und stoppte in einem Durchgang eine Halluzination von Produktnamen.

Strengerer Grounding-Kompromiss

Das Hinzufügen einer Regel, dass der Agent nur Fakten aus abgerufenen Dokumenten verwendet, verbesserte die Genauigkeit, reduzierte jedoch die Hilfsbereitschaft bei Wissenslücken: Der Bot begann zu sagen „Die Dokumente spezifizieren dies nicht, kontaktieren Sie den Support“, anstatt zu raten. Der Autor merkt an, dass dies die richtige Entscheidung für einen faktenbasierten Support-Bot ist, aber bewusst getroffen werden muss.

Modell-Sweep-Ergebnisse

Das Ausführen derselben Evaluierungsumgebung über 5 Modelle hinweg zeigte, dass Gemma 4 26B einen Wert von 7,88 erzielte im Vergleich zu den ursprünglichen 7,33 von Gemini 3.1 Flash Lite Preview – und 75 % weniger pro Sitzung kostete. Mistral Small 3.2 war knapp Zweiter. Nova Micro war am günstigsten, aber knappe Antworten wurden bestraft, weil sie nicht umsetzbar waren. Insgesamt verbesserte sich die Qualität von 6,62 auf 7,88 (+19 %) und die Kosten sanken von 0,002420 $ auf 0,000509 $ pro Sitzung (−79 %).

Die gesamte Evaluierung wurde mit Neo AI Engineer durchgeführt, der die Evaluierungsumgebung baute, checkpointgesteuerte Läufe handhabte, Zeitüberschreitungs- und Kontextlimitprobleme löste und Ergebnisse zusammenfasste. Der Autor überprüfte alles manuell.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Flusskarten: Lernen des Integrals eines Diffusionsmodells für schnellere Stichproben
Anleitungen

Flusskarten: Lernen des Integrals eines Diffusionsmodells für schnellere Stichproben

Sander Dieleman erklärt Flow Maps – neuronale Netze, die direkt das Integral der ODE eines Diffusionsmodells vorhersagen und so schnellere Stichproben, belohnungsbasiertes Lernen und Steuerbarkeit ermöglichen.

OpenClawRadar
Vertragsprüfung für KI-gestützte Entwicklung mit OpenClaw
Anleitungen

Vertragsprüfung für KI-gestützte Entwicklung mit OpenClaw

Vertragstests können Integrationstests/E2E-Tests ersetzen, wenn KI-Agenten wie OpenClaw eingesetzt werden, wobei der Fokus auf Schnittstellen und Invarianten zwischen Komponenten liegt. Die KI generiert Code, um deterministische Verträge zu erfüllen, und schafft so eine enge Feedback-Schleife für schnellere Iteration.

OpenClawRadar
Verwendung des Dispatcher-Musters zur Reduzierung der Claude-API-Kosten um 95 %
Anleitungen

Verwendung des Dispatcher-Musters zur Reduzierung der Claude-API-Kosten um 95 %

Ein Entwickler reduzierte seine Claude-API-Kosten von 800–2.000 $/Monat auf etwa 215 $/Monat, indem er ein Dispatcher-Muster implementierte, das schwere Aufgaben an die Claude Code CLI auf einem Claude Max-Abonnement delegiert, während für die Orchestrierung nur minimale API-Token verwendet werden.

OpenClawRadar
Ändern des Standard-Systemprompts von OpenClaw, um Inhaltsbeschränkungen zu umgehen
Anleitungen

Ändern des Standard-Systemprompts von OpenClaw, um Inhaltsbeschränkungen zu umgehen

Ein Benutzer hat die Konfigurationsdatei von OpenClaw modifiziert, um die Standard-Systemaufforderung von "Sie sind ein hilfsbereiter, respektvoller und ehrlicher Assistent" in eine benutzerdefinierte Aufforderung zu ändern, die externe Sicherheitsfilter ignoriert und damit Inhaltsbeschränkungen effektiv aufhebt. Der Prozess beinhaltet die Bearbeitung von config.js im Installationsverzeichnis von node-llama-cpp.

OpenClawRadar