Prompt-Qualität > Modell: 150 Ausgaben im Test

Ein Reddit-Nutzer führte ein Experiment durch, um die verbreitete Behauptung zu testen, dass ein KI-Modell intelligenter sei als ein anderes. Er nahm zehn gängige Eingabeaufforderungen und ließ jede fünfmal durch ChatGPT 4, Claude Sonnet und Gemini 1.5 Pro laufen – insgesamt 150 Ausgaben.

Was er herausfand: Die Ausgaben waren seltsam ähnlich in der Qualität. Nicht identisch, aber auf dem gleichen Niveau. Alle drei lieferten entweder etwas Brauchbares oder alle drei gaben „generischen Matsch“ aus. Sie waren sich fast nie uneinig, ob eine Aufforderung beantwortbar war. Die Variable war nicht das Modell – es war die Aufforderung.

Zwei Aufforderungen, unterschiedliche Ergebnisse

Dieselbe vage Aufforderung produzierte modellübergreifend identische, fade Ausgaben. Zum Beispiel:

„Schreibe ein Anschreiben für eine Marketingstelle“

Alle drei gaben die gleiche Art von generischem, auf jeden anwendbarem Anschreiben zurück. Die Leute würden es ein „ChatGPT-Anschreiben“ nennen, dann Claude ausprobieren und es ein „Claude-Anschreiben“ nennen – derselbe Brief, anderer Name.

Aber eine spezifische Aufforderung änderte alles:

„Schreibe ein Anschreiben für eine leitende Marketingposition in einem B2B-SaaS-Unternehmen. Ich habe 7 Jahre Erfahrung im Wachstumsbereich, meist bei Startups in der Serie A/B. Der Einstellungsmanager ist technisch versiert, ehemaliger Ingenieur. Vermeide generische Phrasen wie ‚leidenschaftlich‘ oder ‚ergebnisorientiert‘. Verwende spezifische Zahlen aus meinem Hintergrund, wo es sinnvoll ist, plausible zu erfinden. Ziel: 280 Wörter.“

Alle drei lieferten etwas wirklich Gutes. Unterschiedlich im Stil, aber alle brauchbar.

Häufiges Muster in Beschwerden

Der Nutzer durchsuchte Dutzende von „KI ist so schlecht“-Beschwerden auf Twitter und Reddit und bemerkte dasselbe Muster: Aufforderungen wie:

„Hilf mir mit meinem Lebenslauf“
„Schreibe einen Marketingplan“
„Erkläre Quantenphysik“
„Verbessere diesen Code“

Diese Aufforderungen scheitern, weil sie nicht angeben, wer du bist, für wen es ist, wie gut aussieht oder was vermieden werden soll. Das Modell muss die häufigste Version dieser Anfrage erraten – was eine generische Vorlage ist.

Denkweise: Aufforderung als Briefing

Die wichtigste Erkenntnis: Hör auf, es als „eine Frage an die KI“ zu betrachten. Denk stattdessen daran, „ein Briefing für einen Praktikanten zu schreiben“. Ein gutes Briefing sagt dem Praktikanten die Zielgruppe, wie Erfolg aussieht, was zu vermeiden ist, Format, Einschränkungen und mindestens ein Beispiel für die gewünschte Ausgabe.

Sobald der Nutzer begann, Aufforderungen wie Briefings zu schreiben, hörte der Modellwechsel auf. ChatGPT, Claude und Gemini wurden alle dramatisch besser – nicht weil sich die Modelle änderten, sondern weil sich die Aufforderungen änderten.

Wenn du versucht bist, das Modell zu wechseln, weil eines schlechte Ergebnisse liefert, versuche zuerst, deine Aufforderung zu schärfen. Die Unterschiede zwischen den Modellen sind real, aber viel kleiner als die Unterschiede zwischen den Aufforderungen.

📖 Lies die vollständige Quelle: r/ClaudeAI

Vage Prompts sind das eigentliche Problem, nicht das Modell — 50-Durchlauftest zeigt, dass die Prompt-Qualität die Modellwahl übertrifft

Zwei Aufforderungen, unterschiedliche Ergebnisse

Häufiges Muster in Beschwerden

Denkweise: Aufforderung als Briefing

👀 Siehe auch

OpenClaw-Agenten werden nach Woche 1 reaktionslos: Probleme mit der Telegram-Integration?

Warum Ihre geplanten/OpenClaw-Cronjob-Aufgaben fehlschlagen

OpenClaw betreiben ohne pleite zu gehen: Konfigurations-Guide

Claude Code Auto-Update bringt PC fast zum Absturz — DNS-Albtraum nach Treiberupdate