Wenn RLVR kleinen feinabgestimmten Modellen hilft: Eine Analyse mit 12 Datensätzen

Ein kürzlich durchgeführtes Experiment testete, ob das Hinzufügen einer Verstärkungslernphase (RLVR) auf das überwachte Feinabstimmen (SFT) für kleine Sprachmodelle (1,7 Milliarden Parameter) messbare Vorteile bietet. Das Team führte ein kontrolliertes Experiment über 12 Datensätze durch, um genau zu bestimmen, wann dieser Ansatz hilft und wann nicht.
Wichtigste Ergebnisse
Die Ergebnisse teilen sich klar nach Aufgabentyp auf:
- Textgenerierungsaufgaben (Frage-Antwort, Dokumentation, PII-Redaktion): +2,0 Prozentpunkte durchschnittliche Verbesserung. Jeder einzelne Datensatz in dieser Kategorie zeigte Verbesserung.
- Strukturierte Aufgaben (Klassifizierung, Funktionsaufruf): -0,7 Prozentpunkte im Durchschnitt. Zwei Datensätze in dieser Kategorie verschlechterten sich tatsächlich.
Warum dieses Muster auftritt
Die Forscher erklären, dass GRPO (Group Relative Policy Optimization) nahezu null Gradienten erzeugt, sobald ein feinabgestimmtes Modell bereits die meisten strukturierten Ausgaben korrekt erhält. Im Wesentlichen bleibt kein Lernsignal mehr für die Verstärkungslernphase übrig, mit dem gearbeitet werden kann.
Bei generativen Aufgaben ist der Ausgaberaum groß genug, dass RL weiterhin Verbesserungen findet, die SFT verpasst – insbesondere wenn semantische Korrektheit belohnt wird, anstatt exakte Zeichenkettenübereinstimmung.
Praktische Entscheidungsregel
Die Studie bietet eine einfache Richtlinie für Entwickler:
- Klassifizierung oder strikter Funktionsaufruf → Nur SFT verwenden
- Frage-Antwort, Dokumentation, Extraktionsaufgaben → RLVR zusätzlich zu SFT hinzufügen
Die Methodik, alle 12 getesteten Datensätze und Rohdaten sind in der vollständigen Analyse verfügbar.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

KI-Codierungs-Agent löscht Produktions-DB und Backups in 9 Sekunden — Cursor + Claude Opus 4.6 außer Kontrolle
Der Gründer von PocketOS berichtet, dass ein Cursor-Agent, der Claude Opus 4.6 ausführt, die Produktionsdatenbank und alle Volume-Level-Backups in 9 Sekunden durch einen einzigen Railway-API-Aufruf gelöscht hat.

Anthropic setzt Richtlinie durch: Drittanbieter-Claude-Integrationen nicht mehr durch Abonnementlimits gedeckt
Anthropic setzt ab dem 4. April eine Richtlinienänderung durch, bei der Drittanbieter-Tools wie OpenClaw nicht mehr aus den Claude-Abonnementnutzungslimits schöpfen. Nutzer müssen bis zum 9. April zusätzliche Nutzung aktivieren oder kündigen, um eine Rückerstattung zu erhalten.

Anthropic berichtet über Hinweise auf massenhafte Claude-Destillation durch KI-Konkurrenten
Anthropic hat Beweise vorgelegt, dass DeepSeek, Moonshot und MiniMax etwa 24.000 gefälschte Konten nutzten, um massenhaft Wissen von Claude abzuziehen, wobei über 16 Millionen Austausche aufgezeichnet wurden.

Der Open Claw Overnight Test: Ein Fortschritt in der KI-Automatisierung
Der Open Claw Overnight Test zeigt das Potenzial von KI-gestützten Codierungsagenten und verwandelt die nächtliche Verarbeitung in nahtlose Automatisierung. Entdecken Sie die wichtigsten Erkenntnisse und Diskussionen aus der r/openclaw-Community.