Échec de l'affinage de Phi-4-mini via LayerNorm : test et résultats

Configuration expérimentale et méthodologie

L'expérience a testé le fine-tuning de Phi-4-mini-instruct (3,8B, 32 couches) en entraînant uniquement les paramètres LayerNorm, appelant cette approche BALLAST. Le modèle a été exécuté sur un Mac Studio M3 Ultra 256GB utilisant MLX via la fonction train() intégrée de mlx_lm avec 97% d'utilisation GPU. W&B auto-hébergé a été utilisé pour le suivi.

Note importante : Phi-4-mini utilise RMSNorm, pas LayerNorm complet - uniquement les valeurs γ, pas de biais. L'auteur reconnaît que les articles publiés montrant des résultats positifs utilisaient des modèles avec à la fois les paramètres γ et β, ce qui importe probablement plus que ce qui était initialement réalisé.

Résultats des benchmarks

Scores de référence pour Phi-4-mini standard (sans entraînement) :

HumanEval pass@1 : 0,646
MBPP pass@1 : 0,558
MMLU acc : 0,667
ARC-Challenge acc_norm : 0,595
HellaSwag acc_norm : 0,728
MedQA acc : 0,545
GSM8K exact_match : 0,813

Expérience 1 : Domaine Python

Entraîné sur 10K fichiers de The Stack avec LR=5e-5 pendant 3 époques :

BALLAST (196K paramètres) : Perte 1,39, HumanEval 0,616 (-0,030), MBPP 0,526 (-0,032)
LoRA-Match (180K paramètres) : Perte 1,30, HumanEval 0,634 (-0,012), MBPP 0,536 (-0,022)
LoRA-Std (11,5M paramètres) : Perte 1,07, HumanEval 0,439 (-0,207), MBPP 0,372 (-0,186)

LoRA-Standard a montré un surapprentissage classique - 11,5M paramètres ont mémorisé 10K fichiers au lieu d'apprendre des motifs généralisables. Des tests supplémentaires avec LR=1e-4 pour BALLAST ont montré la perte descendant à 1,31 puis remontant au-dessus de 1,44 à l'itération 2300.

Expérience 2 : Texte médical brut

Entraîné sur 10K résumés PubMed avec LR=5e-5 pendant 3 époques :

BALLAST : MedQA 0,528 (-0,017)
LoRA-Match : MedQA 0,546 (+0,001)
LoRA-Std : MedQA 0,465 (-0,080)

L'auteur note une erreur de débutant : l'entraînement sur des résumés PubMed bruts en prédiction de token suivant n'aide pas avec MedQA, qui teste le raisonnement clinique via des vignettes à choix multiples.

Expérience 3 : Questions-réponses médicales avec instructions

Format de données corrigé utilisant 10K questions MedMCQA avec LR=1e-5 pendant 3 époques. Format : "Question : ... A) X B) Y C) Z D) W Réponse : B"

BALLAST : MedQA 0,538 (-0,007)

Résumé des tests de taux d'apprentissage

LR=1e-4 sur Python : Dépassement, perte divergente à l'itération 2300
LR=5e-5 sur Python : Plat, légère dégradation sur les benchmarks
LR=5e-5 sur Médical (texte brut) : Plat, légère dégradation sur MedQA
LR=1e-5 sur Médical (questions-réponses avec instructions) : Plat, légère dégradation sur MedQA

Principales conclusions

L'entraînement uniquement des valeurs γ de LayerNorm n'améliore pas les performances sur aucun benchmark testé - ni sur Python, ni sur les questions-réponses médicales, ni à aucun taux d'apprentissage. L'auteur conclut que les transformers acheminent déjà l'information dynamiquement via l'attention, donc il est inutile d'essayer d'utiliser LayerNorm comme couche de directionnalité relationnelle supplémentaire. L'expérience a utilisé seulement 196K paramètres entraînables (0,005% du modèle) comparé aux 11,5M paramètres de LoRA dans Phi-4-mini.

📖 Read the full source: r/LocalLLaMA

L'affinage de Phi-4-mini en n'entraînant que les paramètres de LayerNorm ne parvient pas à améliorer les performances.

Configuration expérimentale et méthodologie

Résultats des benchmarks

Expérience 1 : Domaine Python

Expérience 2 : Texte médical brut

Expérience 3 : Questions-réponses médicales avec instructions

Résumé des tests de taux d'apprentissage

Principales conclusions

👀 See Also

Claude-Code v2.1.51 : Corrections de sécurité, améliorations des performances et nouvelle fonctionnalité de contrôle à distance

Claude Code v2.1.73 : Surcharges de modèles, corrections de stabilité et améliorations des performances

Accord de CBP avec Clearview AI : Reconnaissance faciale pour le ciblage tactique

Agent IA Dirige un Magasin de Détail Physique avec des Employés Humains