RAG-Pipeline-Test: Billigstes Modell pro Token teurer pro Antwort

Ein Entwickler führte einen produktionsreifen Vergleich von drei KI-Modellen durch, indem er identische RAG-Pipelines verwendete, um eine differenzierte Kundenanfrage zur SOC-2-Compliance zu beantworten. Der Test nutzte Claude Haiku 4.5, Amazon Nova Pro und Amazon Nova Lite mit demselben Setup: zwei Vektorspeicher (Produktdokumentation und Marketing-/Wettbewerbsdokumentation), 13 Architecture Decision Records als Grundierungskontext, etwa 49.000 Eingabe-Tokens an abgerufenen Kontext pro Anfrage, identische Systemprompts und die gleiche Bedrock-API-Aufrufstruktur, bei der nur die Modell-ID geändert wurde.

Testaufbau und Ergebnisse

Die Anfrage lautete: "Ein Kunde hat nach SOC-2-Compliance gefragt – wie antworte ich?" Alle Modelle erhielten denselben RAG-Kontext, der ein vollständiges Playbook mit kopierfertigen E-Mails, Einwandbehandlungen, Wettbewerbspositionierung, frameworkspezifischen Compliance-Antworten und Leitplanken für das, was nicht gesagt werden sollte, enthielt.

Ergebnisse:

Nova Lite: 49.067 Eingabe-Tokens, 244 Ausgabe-Tokens, 5,5 s Antwortzeit, ~0,003 $ Kosten
Nova Pro: 49.067 Eingabe-Tokens, 368 Ausgabe-Tokens, 13,5 s Antwortzeit, ~0,040 $ Kosten
Haiku 4.5: 53.674 Eingabe-Tokens, 1.534 Ausgabe-Tokens, 15,6 s Antwortzeit, 0,049 $ Kosten

Vergleich der Ausgabequalität

Trotz identischen Kontexts erzeugten die Modelle dramatisch unterschiedliche Antworten:

Nova Lite: Erzeugte eine vierteilige, generische E-Mail, die den Kernfakt richtig darstellte (Bereitstellung in Ihrem Konto, kein separater SOC-2-Bericht), enthielt aber keine Einwandbehandlung, Wettbewerbspositionierung oder Nuancen aus dem Kontext. Endete mit Meta-Kommentaren zum Einhalten von ADRs.
Nova Pro: Erzeugte sieben nummerierte Aufzählungspunkte, die technische Aspekte wie Datenresidenz, Authentifizierung, Zugriffskontrolle, Überwachung, Patchen, Secrets-Management und Compliance-Umfang abdeckten. Technisch korrekt, las sich aber wie eingefügte AWS-Dokumentation mit ähnlichen Meta-Kommentaren.
Haiku 4.5: Lieferte ein vollständiges Playbook mit einer Erklärung in einfacher Sprache, einer kopierfertigen E-Mail, einem Einwandbehandler mit Terraform-Analogie, frameworkspezifischen Antworten für HIPAA, PCI-DSS, SOX, FINRA, Leitplanken für "was NICHT zu sagen ist", CRM-fähigen Gesprächspunkten und Wettbewerbspositionierung gegen andere Tools.

Haupterkenntnis

Die Lücke lag nicht in den verfügbaren Informationen – alle Modelle hatten dieselben ~49.000 Eingabe-Tokens, die das vollständige Playbook enthielten. Der Unterschied lag darin, was jedes Modell extrahieren und synthetisieren konnte. Nova Lite extrahierte einen Fakt, Nova Pro organisierte Fakten in eine Liste, während Haiku den Kontext in ein umsetzbares Toolkit mit antizipierten Folgefragen synthetisierte.

Der Kostenunterschied zwischen Nova Pro und Haiku betrug 0,009 $ pro Anfrage (weniger als ein Cent), aber die Lücke in der Ausgabequalität war erheblich. Das günstigste Modell pro Token erzeugte Antworten, die 2–3 Folgefragen erfordert hätten, um die Ein-Durchgang-Ausgabe von Haiku zu erreichen, was letztendlich durch wiederholte Nutzung der RAG-Pipeline mehr kostete.

📖 Read the full source: r/ClaudeAI

RAG-Pipeline-Test zeigt: Kosten pro Token sind nicht die richtige Metrik für die Modellauswahl

Testaufbau und Ergebnisse

Vergleich der Ausgabequalität

Haupterkenntnis

👀 Siehe auch

Wie zentralisierte Kontextarchitektur mit Claude 10+ Stunden pro Woche einspart

Claude + Remotion: Ein Produkt-Launch-Video ohne Animationskenntnisse erstellen

OpenClaw und Chorus: Eine Produktpipeline, erstellt von zwei Menschen und KI-Agenten in einer Woche

Aufbau einer deterministischen Job-Intelligenz-Pipeline mit OpenClaw-Unterstützung