Ajuste fino de Phi-4-mini: entrenar solo LayerNorm no mejora rendimiento

Configuración experimental y metodología

El experimento probó el ajuste fino de Phi-4-mini-instruct (3.8B, 32 capas) entrenando solo los parámetros de LayerNorm, denominando al enfoque BALLAST. El modelo se ejecutó en un Mac Studio M3 Ultra 256GB utilizando MLX a través de la función train() integrada de mlx_lm con un 97% de utilización de GPU. Se utilizó W&B autoalojado para el seguimiento.

Nota importante: Phi-4-mini usa RMSNorm, no LayerNorm completo: solo valores γ, sin sesgo. El autor reconoce que los artículos publicados que muestran resultados positivos utilizaron modelos con ambos parámetros γ y β, lo que probablemente importa más de lo inicialmente pensado.

Resultados de puntos de referencia

Puntuaciones de línea base para Phi-4-mini estándar (sin entrenamiento):

HumanEval pass@1: 0.646
MBPP pass@1: 0.558
MMLU acc: 0.667
ARC-Challenge acc_norm: 0.595
HellaSwag acc_norm: 0.728
MedQA acc: 0.545
GSM8K exact_match: 0.813

Experimento 1: Dominio Python

Entrenado en 10K archivos de The Stack con LR=5e-5 durante 3 épocas:

BALLAST (196K parámetros): Pérdida 1.39, HumanEval 0.616 (-0.030), MBPP 0.526 (-0.032)
LoRA-Match (180K parámetros): Pérdida 1.30, HumanEval 0.634 (-0.012), MBPP 0.536 (-0.022)
LoRA-Std (11.5M parámetros): Pérdida 1.07, HumanEval 0.439 (-0.207), MBPP 0.372 (-0.186)

LoRA-Standard mostró sobreajuste clásico: 11.5M parámetros memorizaron 10K archivos en lugar de aprender patrones generalizables. Pruebas adicionales con LR=1e-4 para BALLAST mostraron que la pérdida bajó a 1.31 y luego subió por encima de 1.44 en la iteración 2300.

Experimento 2: Texto médico crudo

Entrenado en 10K resúmenes de PubMed con LR=5e-5 durante 3 épocas:

BALLAST: MedQA 0.528 (-0.017)
LoRA-Match: MedQA 0.546 (+0.001)
LoRA-Std: MedQA 0.465 (-0.080)

El autor señala un error de principiante: entrenar con resúmenes crudos de PubMed como predicción del siguiente token no ayuda con MedQA, que evalúa razonamiento clínico a través de viñetas de opción múltiple.

Experimento 3: Preguntas y respuestas médicas con instrucciones

Formato de datos corregido usando 10K preguntas de MedMCQA con LR=1e-5 durante 3 épocas. Formato: "Pregunta: ... A) X B) Y C) Z D) W Respuesta: B"

BALLAST: MedQA 0.538 (-0.007)

Resumen de pruebas de tasa de aprendizaje

LR=1e-4 en Python: Excedido, pérdida divergió en la iteración 2300
LR=5e-5 en Python: Plano, ligera degradación en puntos de referencia
LR=5e-5 en Médico (texto crudo): Plano, ligera degradación en MedQA
LR=1e-5 en Médico (preguntas y respuestas con instrucciones): Plano, ligera degradación en MedQA

Hallazgos clave

Entrenar solo los valores γ de LayerNorm no mejora el rendimiento en ningún punto de referencia probado: ni en Python, ni en preguntas y respuestas médicas, ni con ninguna tasa de aprendizaje. El autor concluye que los transformadores ya enrutan información dinámicamente a través de la atención, por lo que no tiene sentido intentar usar LayerNorm como una capa adicional de direccionalidad relacional. El experimento utilizó solo 196K parámetros entrenables (0.005% del modelo) en comparación con los 11.5M parámetros de LoRA en Phi-4-mini.

📖 Read the full source: r/LocalLLaMA

El ajuste fino de Phi-4-mini entrenando solo los parámetros de LayerNorm no logra mejorar el rendimiento.

Configuración experimental y metodología

Resultados de puntos de referencia

Experimento 1: Dominio Python

Experimento 2: Texto médico crudo

Experimento 3: Preguntas y respuestas médicas con instrucciones

Resumen de pruebas de tasa de aprendizaje

Hallazgos clave

👀 Ver también

Errores de Conexión de Claude para Organizaciones que Bloquean GitHub por Dirección IP

La investigación muestra que la personalidad afecta la autocorrección de Claude, no la de Llama ni Qwen.

Opus 4.6 destaca en investigación, Gemini 3.1 Pro tiene mejor juicio en tareas de pronóstico

Suscriptores de la UE reportan límites no divulgados en el uso de Claude Pro – Posible violación de la ley del consumidor