Wie kleine Modellbewertungs-Prompts in die Irre führen können und wie man sie korrigiert

✍️ OpenClawRadar📅 Veröffentlicht: 9. März 2026🔗 Source
Wie kleine Modellbewertungs-Prompts in die Irre führen können und wie man sie korrigiert
Ad

Eine detaillierte Analyse auf r/LocalLLaMA erklärt, warum Evaluierungsaufforderungen für kleine Modelle (wie Modelle mit 7B oder 12B Parametern) oft irreführende, übermäßig optimistische Bewertungen erzeugen, die nicht mit der tatsächlichen Ausgabequalität übereinstimmen. Das Kernproblem liegt nicht in den Fähigkeiten des Modells, sondern darin, wie Aufforderungen verschiedene kognitive Pfade in Transformer-Architekturen aktivieren.

Die drei kognitiven Modi von Transformern

Der Beitrag identifiziert drei funktionale Pfade, die Modelle basierend auf der Aufforderungssprache nutzen:

  • Dimension 1 (D1) — Faktenabruf: Aktiviert durch Fragen wie „Was ist...“, „Definiere...“, „Wann hat...“. Das Modell ruft während des Trainings gespeichertes Wissen ab. Für Evaluierungsaufgaben ist dies größtenteils irrelevant.
  • Dimension 2 (D2) — Anwendung und Befolgung von Anweisungen: Aktiviert durch Sprache wie „Analysiere...“, „Klassifiziere...“, „Wende diese Kriterien an...“. Das Modell wendet explizite Regeln an, folgt strukturierten Anweisungen und klassifiziert Eingaben anhand vorgegebener Kriterien. Dies ist der zuverlässige Pfad, bei dem kleine Modelle tatsächlich kompetent sind.
  • Dimension 3 (D3) — Emotionale und empathische Schlussfolgerung: Aktiviert durch Sprache wie „Wie sollte sich das anfühlen?“, „Welche emotionale Reaktion ist angemessen?“, „Als einfühlsamer Assistent...“. Das Modell schließt auf unausgesprochenen emotionalen Kontext und trifft normative Urteile darüber, wie sich Dinge „anfühlen sollten“, wobei es durch RLHF-Konditionierung geleitet wird und nicht durch Beweise in der Aufforderung. Kleine Modelle sind hier unzuverlässig, wobei die Verzerrung konsequent positiv und unterstützend ist, unabhängig vom tatsächlichen Inhalt.

Die Erkenntnis zur Pfadwahl

Die zentrale Erkenntnis: „Analysiere den emotionalen Inhalt“ aktiviert D2 (das Modell betrachtet den Text und klassifiziert ihn), während „Was sollte der Nutzer fühlen?“ D3 aktiviert (das Modell rät, was eine hilfreiche KI sagen würde). Diese Fragen fühlen sich gleichwertig an, erzeugen aber systematisch unterschiedliche Ausgaben.

Ad

Konkretes Beispiel für ein Versagen

Der Autor testete dies empirisch mit einem Mistral 7B-Stimmungsanalysator für ein Konversations-KI-System. Die ursprüngliche Aufforderung (vereinfacht):

Du bist ein einfühlsamer KI-Begleiter, der emotionalen Inhalt analysiert. Analysiere diese Nachricht und gib zurück: { "tone": "warm, affectionate, grateful", "intensity": 0.0 to 1.0, "descriptors": ["example1", "example2"] }

Was passierte: Neutrale Nachrichten ergaben einen leicht positiven Ton. Leicht negative Nachrichten wurden als neutral oder leicht positiv bewertet. Intensitätswerte für negativen Inhalt waren durchweg niedriger als Intensitätswerte für gleichwertigen positiven Inhalt. Diese systematische, reproduzierbare Verzerrung wird als positive Phantomdrift bezeichnet – die RLHF-Konditionierung des Modells zieht Ausgaben in Richtung unterstützender, positiver Antworten, unabhängig vom tatsächlichen Eingabeinhalt.

Drei Dinge verursachten dieses Versagen:

  • „Einfühlsamer KI-Begleiter“ aktivierte D3 und versetzte das Modell in den Pfad der sozialen Erwartungen
  • Beispielwerte in der JSON-Vorlage („warm, affectionate, grateful“) lenkten das Modell in Richtung positiver Ausgaben
  • Das Modell erzeugte, was eine hilfreiche KI sagen würde, anstatt die Beweise zu analysieren

Der Beitrag betont, dass kleine Modelle bei Evaluierungsaufgaben gut abschneiden können, wenn Aufforderungen gezielt D2 (Anwendung/Befolgung von Anweisungen) anstelle von D3 (emotionale Schlussfolgerung) aktivieren. Der Unterschied zwischen „Analysiere den emotionalen Inhalt“ und „Was sollte der Nutzer fühlen?“ bestimmt, ob man zuverlässige Klassifizierung oder verzerrte Antworten basierend auf sozialen Erwartungen erhält.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Praktische Lehren aus der Entwicklung von On-Device-KI in React Native
Anleitungen

Praktische Lehren aus der Entwicklung von On-Device-KI in React Native

Ein Entwickler teilt spezifische technische Details aus dem Aufbau einer React Native App mit On-Device-LLMs, Bildgenerierung, Sprachanalyse und Vision AI, einschließlich Speicherverwaltungsstrategien, Bibliotheksauswahl und Leistungsbenchmarks.

OpenClawRadar
Verstehen der .claude/-Ordnerstruktur für die Claude Code-Konfiguration
Anleitungen

Verstehen der .claude/-Ordnerstruktur für die Claude Code-Konfiguration

Der .claude/ Ordner enthält zwei Verzeichnisse: projektbezogen für Team-Konfiguration und global ~/.claude/ für persönliche Einstellungen. CLAUDE.md Dateien enthalten Anweisungen, die Claude während der gesamten Sitzung befolgt, mit CLAUDE.local.md für persönliche Überschreibungen.

OpenClawRadar
CLAUDE.md-Dateien sind oft für Entwickler strukturiert, nicht für KI-Modelle – warum das wichtig ist
Anleitungen

CLAUDE.md-Dateien sind oft für Entwickler strukturiert, nicht für KI-Modelle – warum das wichtig ist

CLAUDE.md-Dateien platzieren harte Regeln meist in Zeile 47, nach Hintergrund und Tech-Stack. Wenn das Modell die Einschränkungen liest, hat es bereits widersprüchliche Annahmen aufgebaut. Eine bessere Struktur setzt harte Regeln an den Anfang.

OpenClawRadar
Behebung von OpenClaw-Prompt-Bloat und langsamen Antwortschleifen
Anleitungen

Behebung von OpenClaw-Prompt-Bloat und langsamen Antwortschleifen

Benutzer, die seit 2026.4.26 lange Verzögerungen erleben, können die Leistung durch Reduzierung von Kontextblähung wiederherstellen: Kürzen Sie stets eingefügte Dateien, beschränken Sie sichtbare Fähigkeiten und vermeiden Sie das Einfügen riesiger Tool-Ausgaben im Hauptchat.

OpenClawRadar