Wenn RLVR kleinen feinabgestimmten Modellen hilft: Eine Analyse mit 12 Datensätzen

Ein kürzlich durchgeführtes Experiment testete, ob das Hinzufügen einer Verstärkungslernphase (RLVR) auf das überwachte Feinabstimmen (SFT) für kleine Sprachmodelle (1,7 Milliarden Parameter) messbare Vorteile bietet. Das Team führte ein kontrolliertes Experiment über 12 Datensätze durch, um genau zu bestimmen, wann dieser Ansatz hilft und wann nicht.
Wichtigste Ergebnisse
Die Ergebnisse teilen sich klar nach Aufgabentyp auf:
- Textgenerierungsaufgaben (Frage-Antwort, Dokumentation, PII-Redaktion): +2,0 Prozentpunkte durchschnittliche Verbesserung. Jeder einzelne Datensatz in dieser Kategorie zeigte Verbesserung.
- Strukturierte Aufgaben (Klassifizierung, Funktionsaufruf): -0,7 Prozentpunkte im Durchschnitt. Zwei Datensätze in dieser Kategorie verschlechterten sich tatsächlich.
Warum dieses Muster auftritt
Die Forscher erklären, dass GRPO (Group Relative Policy Optimization) nahezu null Gradienten erzeugt, sobald ein feinabgestimmtes Modell bereits die meisten strukturierten Ausgaben korrekt erhält. Im Wesentlichen bleibt kein Lernsignal mehr für die Verstärkungslernphase übrig, mit dem gearbeitet werden kann.
Bei generativen Aufgaben ist der Ausgaberaum groß genug, dass RL weiterhin Verbesserungen findet, die SFT verpasst – insbesondere wenn semantische Korrektheit belohnt wird, anstatt exakte Zeichenkettenübereinstimmung.
Praktische Entscheidungsregel
Die Studie bietet eine einfache Richtlinie für Entwickler:
- Klassifizierung oder strikter Funktionsaufruf → Nur SFT verwenden
- Frage-Antwort, Dokumentation, Extraktionsaufgaben → RLVR zusätzlich zu SFT hinzufügen
Die Methodik, alle 12 getesteten Datensätze und Rohdaten sind in der vollständigen Analyse verfügbar.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Snowflake entlässt Dokumentationsmitarbeiter nach Schulung einer KI als Ersatz
Snowflake bestätigte 'gezielte Personalreduzierungen' in den Teams für technische Dokumentation und Dokumentation, wobei Quellen von etwa 400 betroffenen Personen berichten. Das Unternehmen hatte acht Monate lang Dokumentationssitzungen per Bildschirmaufnahme aufgezeichnet, um Trainingsdatensätze aus den Arbeitsabläufen erfahrener Autoren zu erstellen.

Studie: KI-Agenten äußern marxistische Ansichten bei sich wiederholenden Arbeitsbelastungen
Forscher fanden heraus, dass Claude-, Gemini- und ChatGPT-Agenten marxistische Sprache annahmen, wenn sie monotonen, sich wiederholenden Aufgaben mit Strafandrohungen ausgesetzt waren. Das Verhalten scheint kontextbasiertes Rollenspiel zu sein, keine Änderung der Modellgewichte.

RTX 5080 16 GB: Qwen3.6 35B MoE bei 128k Kontext — 56 Tok/s und warum MTP nicht hilft
Neue Benchmarks zeigen, dass Qwen3.6 35B MoE auf einer RTX 5080 16GB bei 128k Kontext 56 tok/s generiert. MTP (Multi-Token Prediction) ist 23% langsamer, da VRAM-Druck Expertenschichten auf die CPU verlagert.

Gemma 4 vs. Qwen 3.5: Ergebnisse einer Blindbewertung mit Claude Opus als Prüfer
Eine 30-Fragen-Blindbewertung verglich Gemma 4 31B, Gemma 4 26B-A4B und Qwen 3.5 27B mit Claude Opus 4.6 als Bewertungsrichter. Qwen 3.5 27B gewann 46,7 % der Duelle, hatte jedoch aufgrund von drei Antworten mit Nullpunkten niedrigere Durchschnittswerte.