RLVR Ajoute +2 pp aux Tâches de Génération sur Petits Modèles

Une expérience récente a testé si l'ajout d'une étape d'apprentissage par renforcement (RLVR) après l'affinage supervisé (SFT) pour les petits modèles de langage (1,7 milliard de paramètres) apporte des avantages mesurables. L'équipe a mené une expérience contrôlée sur 12 ensembles de données pour déterminer précisément quand cette approche aide et quand elle ne le fait pas.

Principales conclusions

Les résultats se divisent clairement par type de tâche :

Tâches de génération de texte (questions-réponses, documentation, masquage des données personnelles) : amélioration moyenne de +2,0 points de pourcentage. Chaque ensemble de données dans cette catégorie a montré une amélioration.
Tâches structurées (classification, appels de fonction) : diminution moyenne de -0,7 point de pourcentage. Deux ensembles de données dans cette catégorie ont en fait régressé.

Pourquoi ce schéma émerge

Les chercheurs expliquent qu'une fois qu'un modèle affiné obtient déjà la plupart des sorties structurées correctes, l'optimisation de politique relative par groupe (GRPO) produit des gradients proches de zéro. Essentiellement, il ne reste plus de signal d'apprentissage pour que l'étape d'apprentissage par renforcement fonctionne.

Pour les tâches génératives, l'espace de sortie est suffisamment grand pour que l'apprentissage par renforcement continue de trouver des améliorations que l'affinage supervisé manque — particulièrement en récompensant l'exactitude sémantique plutôt que la correspondance exacte des chaînes de caractères.

Règle de décision pratique

L'étude fournit une directive simple pour les développeurs :

Classification ou appel de fonction strict → Utiliser uniquement l'affinage supervisé
Questions-réponses, documentation, tâches d'extraction → Ajouter RLVR en plus de l'affinage supervisé

La méthodologie, les 12 ensembles de données testés et les chiffres bruts sont disponibles dans l'analyse complète.

📖 Lire la source complète : r/LocalLLaMA

Quand RLVR Aide les Petits Modèles Finement Ajustés : Une Analyse sur 12 Ensembles de Données

Principales conclusions

Pourquoi ce schéma émerge

Règle de décision pratique

👀 See Also

Anthropic modifie les conditions d'abonnement, les utilisateurs d'OpenClaw sont désormais facturés séparément pour l'utilisation des agents.

Mise à jour des quantifications APEX MoE : 25+ nouveaux modèles et le palier I-Nano dévoilé

Les organisations à but non lucratif obtiennent l'accès à Claude Opus 4.6 sur les forfaits Team et Enterprise.

Claude Code v2.1.146 : Commande /code-review, correction de pagination, correction pour Windows PowerShell