So korrigieren Sie irreführende Modellbewertungs-Prompts

Eine detaillierte Analyse auf r/LocalLLaMA erklärt, warum Evaluierungsaufforderungen für kleine Modelle (wie Modelle mit 7B oder 12B Parametern) oft irreführende, übermäßig optimistische Bewertungen erzeugen, die nicht mit der tatsächlichen Ausgabequalität übereinstimmen. Das Kernproblem liegt nicht in den Fähigkeiten des Modells, sondern darin, wie Aufforderungen verschiedene kognitive Pfade in Transformer-Architekturen aktivieren.

Die drei kognitiven Modi von Transformern

Der Beitrag identifiziert drei funktionale Pfade, die Modelle basierend auf der Aufforderungssprache nutzen:

Dimension 1 (D1) — Faktenabruf: Aktiviert durch Fragen wie „Was ist...“, „Definiere...“, „Wann hat...“. Das Modell ruft während des Trainings gespeichertes Wissen ab. Für Evaluierungsaufgaben ist dies größtenteils irrelevant.
Dimension 2 (D2) — Anwendung und Befolgung von Anweisungen: Aktiviert durch Sprache wie „Analysiere...“, „Klassifiziere...“, „Wende diese Kriterien an...“. Das Modell wendet explizite Regeln an, folgt strukturierten Anweisungen und klassifiziert Eingaben anhand vorgegebener Kriterien. Dies ist der zuverlässige Pfad, bei dem kleine Modelle tatsächlich kompetent sind.
Dimension 3 (D3) — Emotionale und empathische Schlussfolgerung: Aktiviert durch Sprache wie „Wie sollte sich das anfühlen?“, „Welche emotionale Reaktion ist angemessen?“, „Als einfühlsamer Assistent...“. Das Modell schließt auf unausgesprochenen emotionalen Kontext und trifft normative Urteile darüber, wie sich Dinge „anfühlen sollten“, wobei es durch RLHF-Konditionierung geleitet wird und nicht durch Beweise in der Aufforderung. Kleine Modelle sind hier unzuverlässig, wobei die Verzerrung konsequent positiv und unterstützend ist, unabhängig vom tatsächlichen Inhalt.

Die Erkenntnis zur Pfadwahl

Die zentrale Erkenntnis: „Analysiere den emotionalen Inhalt“ aktiviert D2 (das Modell betrachtet den Text und klassifiziert ihn), während „Was sollte der Nutzer fühlen?“ D3 aktiviert (das Modell rät, was eine hilfreiche KI sagen würde). Diese Fragen fühlen sich gleichwertig an, erzeugen aber systematisch unterschiedliche Ausgaben.

Konkretes Beispiel für ein Versagen

Der Autor testete dies empirisch mit einem Mistral 7B-Stimmungsanalysator für ein Konversations-KI-System. Die ursprüngliche Aufforderung (vereinfacht):

Du bist ein einfühlsamer KI-Begleiter, der emotionalen Inhalt analysiert. Analysiere diese Nachricht und gib zurück: { "tone": "warm, affectionate, grateful", "intensity": 0.0 to 1.0, "descriptors": ["example1", "example2"] }

Was passierte: Neutrale Nachrichten ergaben einen leicht positiven Ton. Leicht negative Nachrichten wurden als neutral oder leicht positiv bewertet. Intensitätswerte für negativen Inhalt waren durchweg niedriger als Intensitätswerte für gleichwertigen positiven Inhalt. Diese systematische, reproduzierbare Verzerrung wird als positive Phantomdrift bezeichnet – die RLHF-Konditionierung des Modells zieht Ausgaben in Richtung unterstützender, positiver Antworten, unabhängig vom tatsächlichen Eingabeinhalt.

Drei Dinge verursachten dieses Versagen:

„Einfühlsamer KI-Begleiter“ aktivierte D3 und versetzte das Modell in den Pfad der sozialen Erwartungen
Beispielwerte in der JSON-Vorlage („warm, affectionate, grateful“) lenkten das Modell in Richtung positiver Ausgaben
Das Modell erzeugte, was eine hilfreiche KI sagen würde, anstatt die Beweise zu analysieren

Der Beitrag betont, dass kleine Modelle bei Evaluierungsaufgaben gut abschneiden können, wenn Aufforderungen gezielt D2 (Anwendung/Befolgung von Anweisungen) anstelle von D3 (emotionale Schlussfolgerung) aktivieren. Der Unterschied zwischen „Analysiere den emotionalen Inhalt“ und „Was sollte der Nutzer fühlen?“ bestimmt, ob man zuverlässige Klassifizierung oder verzerrte Antworten basierend auf sozialen Erwartungen erhält.

📖 Read the full source: r/LocalLLaMA

Wie kleine Modellbewertungs-Prompts in die Irre führen können und wie man sie korrigiert

Die drei kognitiven Modi von Transformern

Die Erkenntnis zur Pfadwahl

Konkretes Beispiel für ein Versagen

👀 Siehe auch

Anleitung: Bereitstellung von OpenClaw mit llama.cpp auf dem GEEKOM IT15 Mini-PC

Wie man unerwartete OpenRouter-Kosten in der OpenClaw-Automatisierung vermeidet

Reddit-Nutzer teilt praktische Claude-Einrichtung für konsistente KI-Codierunterstützung

Durch Auslagerung mechanischer Aufgaben an DeepSeek V4 Flash via MCP senkt Claude Kosten um das 60-fache