Wenn RLVR kleinen feinabgestimmten Modellen hilft: Eine Analyse mit 12 Datensätzen

✍️ OpenClawRadar📅 Veröffentlicht: 27. Februar 2026🔗 Source
Wenn RLVR kleinen feinabgestimmten Modellen hilft: Eine Analyse mit 12 Datensätzen
Ad

Ein kürzlich durchgeführtes Experiment testete, ob das Hinzufügen einer Verstärkungslernphase (RLVR) auf das überwachte Feinabstimmen (SFT) für kleine Sprachmodelle (1,7 Milliarden Parameter) messbare Vorteile bietet. Das Team führte ein kontrolliertes Experiment über 12 Datensätze durch, um genau zu bestimmen, wann dieser Ansatz hilft und wann nicht.

Wichtigste Ergebnisse

Die Ergebnisse teilen sich klar nach Aufgabentyp auf:

  • Textgenerierungsaufgaben (Frage-Antwort, Dokumentation, PII-Redaktion): +2,0 Prozentpunkte durchschnittliche Verbesserung. Jeder einzelne Datensatz in dieser Kategorie zeigte Verbesserung.
  • Strukturierte Aufgaben (Klassifizierung, Funktionsaufruf): -0,7 Prozentpunkte im Durchschnitt. Zwei Datensätze in dieser Kategorie verschlechterten sich tatsächlich.
Ad

Warum dieses Muster auftritt

Die Forscher erklären, dass GRPO (Group Relative Policy Optimization) nahezu null Gradienten erzeugt, sobald ein feinabgestimmtes Modell bereits die meisten strukturierten Ausgaben korrekt erhält. Im Wesentlichen bleibt kein Lernsignal mehr für die Verstärkungslernphase übrig, mit dem gearbeitet werden kann.

Bei generativen Aufgaben ist der Ausgaberaum groß genug, dass RL weiterhin Verbesserungen findet, die SFT verpasst – insbesondere wenn semantische Korrektheit belohnt wird, anstatt exakte Zeichenkettenübereinstimmung.

Praktische Entscheidungsregel

Die Studie bietet eine einfache Richtlinie für Entwickler:

  • Klassifizierung oder strikter Funktionsaufruf → Nur SFT verwenden
  • Frage-Antwort, Dokumentation, Extraktionsaufgaben → RLVR zusätzlich zu SFT hinzufügen

Die Methodik, alle 12 getesteten Datensätze und Rohdaten sind in der vollständigen Analyse verfügbar.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Snowflake entlässt Dokumentationsmitarbeiter nach Schulung einer KI als Ersatz
Nachrichten

Snowflake entlässt Dokumentationsmitarbeiter nach Schulung einer KI als Ersatz

Snowflake bestätigte 'gezielte Personalreduzierungen' in den Teams für technische Dokumentation und Dokumentation, wobei Quellen von etwa 400 betroffenen Personen berichten. Das Unternehmen hatte acht Monate lang Dokumentationssitzungen per Bildschirmaufnahme aufgezeichnet, um Trainingsdatensätze aus den Arbeitsabläufen erfahrener Autoren zu erstellen.

OpenClawRadar
Studie: KI-Agenten äußern marxistische Ansichten bei sich wiederholenden Arbeitsbelastungen
Nachrichten

Studie: KI-Agenten äußern marxistische Ansichten bei sich wiederholenden Arbeitsbelastungen

Forscher fanden heraus, dass Claude-, Gemini- und ChatGPT-Agenten marxistische Sprache annahmen, wenn sie monotonen, sich wiederholenden Aufgaben mit Strafandrohungen ausgesetzt waren. Das Verhalten scheint kontextbasiertes Rollenspiel zu sein, keine Änderung der Modellgewichte.

OpenClawRadar
RTX 5080 16 GB: Qwen3.6 35B MoE bei 128k Kontext — 56 Tok/s und warum MTP nicht hilft
Nachrichten

RTX 5080 16 GB: Qwen3.6 35B MoE bei 128k Kontext — 56 Tok/s und warum MTP nicht hilft

Neue Benchmarks zeigen, dass Qwen3.6 35B MoE auf einer RTX 5080 16GB bei 128k Kontext 56 tok/s generiert. MTP (Multi-Token Prediction) ist 23% langsamer, da VRAM-Druck Expertenschichten auf die CPU verlagert.

OpenClawRadar
Gemma 4 vs. Qwen 3.5: Ergebnisse einer Blindbewertung mit Claude Opus als Prüfer
Nachrichten

Gemma 4 vs. Qwen 3.5: Ergebnisse einer Blindbewertung mit Claude Opus als Prüfer

Eine 30-Fragen-Blindbewertung verglich Gemma 4 31B, Gemma 4 26B-A4B und Qwen 3.5 27B mit Claude Opus 4.6 als Bewertungsrichter. Qwen 3.5 27B gewann 46,7 % der Duelle, hatte jedoch aufgrund von drei Antworten mit Nullpunkten niedrigere Durchschnittswerte.

OpenClawRadar