Entrena Qwen 2.5 7B al 80% en HumanEval con Errores Propios

Un desarrollador en r/LocalLLaMA implementó un bucle de entrenamiento auto-supervisado donde un modelo de lenguaje pequeño genera sus propios problemas de codificación, intenta resolverlos y se ajusta finamente en los pares donde el intérprete confirma la corrección. La idea clave del artículo de DeepSeek-R1 — que los modelos pueden mejorar mediante recompensas verificables — se aplicó sin datos etiquetados por humanos.

Método

Se incitó al modelo base (comenzando con Qwen 2.5 7B) a inventar un problema de codificación y algunas pruebas pequeñas. Luego resolvió el mismo problema varias veces. El intérprete de Python actuó como único juez: se guardaron pares de (intento fallido, intento funcional). El ajuste fino se realizó sobre estas correcciones autoextraídas. No se usó código escrito por humanos en el entrenamiento.

Resultados

Qwen 2.5 7B base: 25 → 112 en HumanEval (+87 problemas) tras corregir un error del calificador que truncaba las salidas de las funciones.
Qwen 2.5 14B: Extrajo 100 pares, entrenó en 95 minutos en una H100 ($3.50 en créditos). Quedó a 4 puntos de la versión RLHF de la misma empresa.
Llama 3.2 3B: 32 pares → 39 → 43 en HumanEval. Confirma la transferencia entre arquitecturas.
Qwen 2.5 Coder 7B: Ya especializado en código, pero aún mejoró: HumanEval 83 → 87, MBPP 122 → 124.
Qwen 3 4B: HumanEval 79 → 106 (+27), MBPP 135 → 148.

Experimento de Control

Para verificar que la señal no provenía del entrenamiento genérico, el autor construyó pares falsos con código basura aleatorio que no pasaba ninguna prueba. El entrenamiento con esos pares no produjo ninguna mejora (25/164, igual que la base). La mejora proviene específicamente del aprendizaje a partir de errores y correcciones autogenerados.

Detalles Prácticos

El intento inicial falló porque el calificador se detenía temprano, cortando las salidas del modelo a la mitad. Arreglar el calificador fue crítico. Todo el montaje funcionó en una MacBook de 24GB y una cuenta de RunPod. El código y los scripts de entrenamiento probablemente se compartieron en la publicación de Reddit.

Para Quién Es

Desarrolladores e investigadores que trabajan con modelos de lenguaje pequeños y quieren iniciar el razonamiento de código sin anotaciones humanas.

📖 Lee la fuente completa: r/LocalLLaMA

Ajuste Fino Autosupervisado en Errores Propios Eleva Modelos Pequeños al 80% en HumanEval

Método

Resultados

Experimento de Control

Detalles Prácticos

Para Quién Es

👀 Ver también

Claude Code 2.1.72 Actualizaciones del Prompt del Sistema: Nuevos Modos de Ejecución y Mejoras de Verificación

Google firma un acuerdo clasificado con el Pentágono para el uso "legal" de la IA

El modelo MiniMax M2.7 muestra un rendimiento sólido como agente de codificación con IA.

El Mínimo de Cinco Asientos de Claude Crea una Brecha de Privacidad para los Profesionales Independientes