Wenn RLVR kleinen feinabgestimmten Modellen hilft: Eine Analyse mit 12 Datensätzen

✍️ OpenClawRadar📅 Veröffentlicht: 27. Februar 2026🔗 Source

Ein kürzlich durchgeführtes Experiment testete, ob das Hinzufügen einer Verstärkungslernphase (RLVR) auf das überwachte Feinabstimmen (SFT) für kleine Sprachmodelle (1,7 Milliarden Parameter) messbare Vorteile bietet. Das Team führte ein kontrolliertes Experiment über 12 Datensätze durch, um genau zu bestimmen, wann dieser Ansatz hilft und wann nicht.

Wichtigste Ergebnisse

Die Ergebnisse teilen sich klar nach Aufgabentyp auf:

Textgenerierungsaufgaben (Frage-Antwort, Dokumentation, PII-Redaktion): +2,0 Prozentpunkte durchschnittliche Verbesserung. Jeder einzelne Datensatz in dieser Kategorie zeigte Verbesserung.
Strukturierte Aufgaben (Klassifizierung, Funktionsaufruf): -0,7 Prozentpunkte im Durchschnitt. Zwei Datensätze in dieser Kategorie verschlechterten sich tatsächlich.

Warum dieses Muster auftritt

Die Forscher erklären, dass GRPO (Group Relative Policy Optimization) nahezu null Gradienten erzeugt, sobald ein feinabgestimmtes Modell bereits die meisten strukturierten Ausgaben korrekt erhält. Im Wesentlichen bleibt kein Lernsignal mehr für die Verstärkungslernphase übrig, mit dem gearbeitet werden kann.

Bei generativen Aufgaben ist der Ausgaberaum groß genug, dass RL weiterhin Verbesserungen findet, die SFT verpasst – insbesondere wenn semantische Korrektheit belohnt wird, anstatt exakte Zeichenkettenübereinstimmung.

Praktische Entscheidungsregel

Die Studie bietet eine einfache Richtlinie für Entwickler:

Klassifizierung oder strikter Funktionsaufruf → Nur SFT verwenden
Frage-Antwort, Dokumentation, Extraktionsaufgaben → RLVR zusätzlich zu SFT hinzufügen

Die Methodik, alle 12 getesteten Datensätze und Rohdaten sind in der vollständigen Analyse verfügbar.

📖 Read the full source: r/LocalLLaMA

👀 Siehe auch

Nachrichten

Claude Opus 4.7 Modellkarte veröffentlicht

Anthropic hat die Claude Opus 4.7 Modellkarte veröffentlicht, die technische Dokumentation für ihr neuestes KI-Modell bereitstellt. Das Quellenmaterial scheint ein PDF-Dokument mit Systemanforderungen und technischen Details zu sein.

18. Apr. 2026, 14:45 UTC

OpenClawRadar

Nachrichten

Zwei südafrikanische Innenministeriumsbeamte wegen KI-Halluzinationen in Politikpapier suspendiert

Zwei Beamte wurden suspendiert, nachdem KI-Halluzinationen in der Referenzliste eines überarbeiteten Weißbuchs zu Staatsbürgerschaft, Einwanderung und Flüchtlingsschutz festgestellt wurden. Die Behörde wird KI-Prüfungen einführen und alle politischen Dokumente ab November 2022 überprüfen.

8. Mai 2026, 02:17 UTC

OpenClawRadar

Nachrichten

Agenten-Geschirr außerhalb der Sandbox: Dauerhafte Ausführung & Kaltstarts

Wenn die Agentenschleife außerhalb der Sandbox läuft, werden Anmeldeinformationen isoliert, die Sandbox kann pausiert werden und die gemeinsame Nutzung durch mehrere Benutzer wird vereinfacht – allerdings müssen dann Probleme mit dauerhafter Ausführung und Kaltstart-Latenz gelöst werden.

3. Mai 2026, 02:15 UTC

OpenClawRadar

Nachrichten

RTX 4090 vs H100 für das Feinabstimmen von Llama-3-8B: Ein Kosten-Leistungs-Vergleich

Ein Entwickler testete das Feinabstimmen von Llama-3-8B sowohl auf einer RTX 4090 als auch auf gemieteten H100-Instanzen. Das 4090-Setup kostete 2.000 US-Dollar im Voraus und dauerte 24 Stunden, während die H100-Miete etwa 80 US-Dollar kostete und in 4 Stunden abgeschlossen war.

15. Apr. 2026, 22:45 UTC

OpenClawRadar