El ajuste fino de Phi-4-mini entrenando solo los parámetros de LayerNorm no logra mejorar el rendimiento.

✍️ OpenClawRadar📅 Publicado: 21 de abril de 2026🔗 Source
El ajuste fino de Phi-4-mini entrenando solo los parámetros de LayerNorm no logra mejorar el rendimiento.
Ad

Configuración experimental y metodología

El experimento probó el ajuste fino de Phi-4-mini-instruct (3.8B, 32 capas) entrenando solo los parámetros de LayerNorm, denominando al enfoque BALLAST. El modelo se ejecutó en un Mac Studio M3 Ultra 256GB utilizando MLX a través de la función train() integrada de mlx_lm con un 97% de utilización de GPU. Se utilizó W&B autoalojado para el seguimiento.

Nota importante: Phi-4-mini usa RMSNorm, no LayerNorm completo: solo valores γ, sin sesgo. El autor reconoce que los artículos publicados que muestran resultados positivos utilizaron modelos con ambos parámetros γ y β, lo que probablemente importa más de lo inicialmente pensado.

Resultados de puntos de referencia

Puntuaciones de línea base para Phi-4-mini estándar (sin entrenamiento):

  • HumanEval pass@1: 0.646
  • MBPP pass@1: 0.558
  • MMLU acc: 0.667
  • ARC-Challenge acc_norm: 0.595
  • HellaSwag acc_norm: 0.728
  • MedQA acc: 0.545
  • GSM8K exact_match: 0.813

Experimento 1: Dominio Python

Entrenado en 10K archivos de The Stack con LR=5e-5 durante 3 épocas:

  • BALLAST (196K parámetros): Pérdida 1.39, HumanEval 0.616 (-0.030), MBPP 0.526 (-0.032)
  • LoRA-Match (180K parámetros): Pérdida 1.30, HumanEval 0.634 (-0.012), MBPP 0.536 (-0.022)
  • LoRA-Std (11.5M parámetros): Pérdida 1.07, HumanEval 0.439 (-0.207), MBPP 0.372 (-0.186)

LoRA-Standard mostró sobreajuste clásico: 11.5M parámetros memorizaron 10K archivos en lugar de aprender patrones generalizables. Pruebas adicionales con LR=1e-4 para BALLAST mostraron que la pérdida bajó a 1.31 y luego subió por encima de 1.44 en la iteración 2300.

Ad

Experimento 2: Texto médico crudo

Entrenado en 10K resúmenes de PubMed con LR=5e-5 durante 3 épocas:

  • BALLAST: MedQA 0.528 (-0.017)
  • LoRA-Match: MedQA 0.546 (+0.001)
  • LoRA-Std: MedQA 0.465 (-0.080)

El autor señala un error de principiante: entrenar con resúmenes crudos de PubMed como predicción del siguiente token no ayuda con MedQA, que evalúa razonamiento clínico a través de viñetas de opción múltiple.

Experimento 3: Preguntas y respuestas médicas con instrucciones

Formato de datos corregido usando 10K preguntas de MedMCQA con LR=1e-5 durante 3 épocas. Formato: "Pregunta: ... A) X B) Y C) Z D) W Respuesta: B"

  • BALLAST: MedQA 0.538 (-0.007)

Resumen de pruebas de tasa de aprendizaje

  • LR=1e-4 en Python: Excedido, pérdida divergió en la iteración 2300
  • LR=5e-5 en Python: Plano, ligera degradación en puntos de referencia
  • LR=5e-5 en Médico (texto crudo): Plano, ligera degradación en MedQA
  • LR=1e-5 en Médico (preguntas y respuestas con instrucciones): Plano, ligera degradación en MedQA

Hallazgos clave

Entrenar solo los valores γ de LayerNorm no mejora el rendimiento en ningún punto de referencia probado: ni en Python, ni en preguntas y respuestas médicas, ni con ninguna tasa de aprendizaje. El autor concluye que los transformadores ya enrutan información dinámicamente a través de la atención, por lo que no tiene sentido intentar usar LayerNorm como una capa adicional de direccionalidad relacional. El experimento utilizó solo 196K parámetros entrenables (0.005% del modelo) en comparación con los 11.5M parámetros de LoRA en Phi-4-mini.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Errores de Conexión de Claude para Organizaciones que Bloquean GitHub por Dirección IP
Noticias

Errores de Conexión de Claude para Organizaciones que Bloquean GitHub por Dirección IP

Una actualización automática de estado informa fallos de conexión para organizaciones que restringen el acceso a GitHub por dirección IP, con seguimiento continuo del incidente a través de status.claude.com.

OpenClawRadar
La investigación muestra que la personalidad afecta la autocorrección de Claude, no la de Llama ni Qwen.
Noticias

La investigación muestra que la personalidad afecta la autocorrección de Claude, no la de Llama ni Qwen.

Un investigador realizó 23 experimentos probando la autocorrección sin salvaguardas en Claude, Llama y Qwen. El hallazgo principal: los perfiles de personalidad afectan la capacidad de autocorrección de Claude, con alta franqueza detectando todos los errores y baja franqueza detectando ninguno. Llama y Qwen no se autocorrigieron ni siquiera con indicaciones idénticas.

OpenClawRadar
Opus 4.6 destaca en investigación, Gemini 3.1 Pro tiene mejor juicio en tareas de pronóstico
Noticias

Opus 4.6 destaca en investigación, Gemini 3.1 Pro tiene mejor juicio en tareas de pronóstico

Un benchmark de 1,417 preguntas de predicción binaria separa el rendimiento de investigación y juicio: Claude Opus 4.6 lidera en investigación agéntica, Gemini 3.1 Pro gana en calibración con evidencia fija. GPT-5.4 y Grok 4.20 muestran pocos cambios entre condiciones.

OpenClawRadar
Suscriptores de la UE reportan límites no divulgados en el uso de Claude Pro – Posible violación de la ley del consumidor
Noticias

Suscriptores de la UE reportan límites no divulgados en el uso de Claude Pro – Posible violación de la ley del consumidor

Una publicación de Reddit detalla cómo la promesa de marketing de Claude Pro de 'sin límites' genera cargos adicionales para los usuarios de la UE y topes de sesión no revelados, lo que posiblemente infringe las directivas de consumo de la UE.

OpenClawRadar