RLVR Mejora Modelos Pequeños Ajustados: +2pp en 12 Datasets

Un experimento reciente probó si agregar una etapa de aprendizaje por refuerzo (RLVR) sobre el ajuste fino supervisado (SFT) para modelos de lenguaje pequeños (1.7 mil millones de parámetros) proporciona beneficios medibles. El equipo realizó un experimento controlado en 12 conjuntos de datos para determinar exactamente cuándo este enfoque ayuda y cuándo no.

Hallazgos Clave

Los resultados se dividen claramente por tipo de tarea:

Tareas de generación de texto (preguntas y respuestas, documentación, redacción de PII): +2.0 puntos porcentuales de mejora promedio. Cada conjunto de datos en esta categoría mostró mejora.
Tareas estructuradas (clasificación, llamadas a funciones): -0.7 puntos porcentuales promedio. Dos conjuntos de datos en esta categoría realmente retrocedieron.

Por qué surge este patrón

Los investigadores explican que una vez que un modelo ajustado ya obtiene la mayoría de las salidas estructuradas correctas, GRPO (Optimización de Política Relativa Grupal) produce gradientes casi cero. Esencialmente, no queda ninguna señal de aprendizaje para que la etapa de aprendizaje por refuerzo funcione.

Para tareas generativas, el espacio de salida es lo suficientemente grande como para que el aprendizaje por refuerzo continúe encontrando mejoras que el SFT pasa por alto, particularmente cuando se recompensa la corrección semántica en lugar de la coincidencia exacta de cadenas.

Regla de decisión práctica

El estudio proporciona una guía simple para desarrolladores:

Clasificación o llamadas estrictas a funciones → Usar solo SFT
Tareas de preguntas y respuestas, documentación, extracción → Agregar RLVR sobre SFT

La metodología, los 12 conjuntos de datos probados y los números brutos están disponibles en el análisis completo.

📖 Leer la fuente completa: r/LocalLLaMA

Cuando RLVR Ayuda a Modelos Pequeños Ajustados Finamente: Un Análisis de 12 Conjuntos de Datos

Hallazgos Clave

Por qué surge este patrón

Regla de decisión práctica

👀 Ver también

Rust salvará a Linux de la IA: Greg Kroah-Hartman sobre errores en C y las garantías de seguridad de Rust

No uses IA para escribir cosas que presentes como trabajo propio.

Desarrollador Reemplaza Asistente Virtual de $25/hora con Agentes de IA, Enfrenta Implicaciones Éticas

Anthropic lanza el programa Embajadores de la Comunidad Claude