L'affinage de Phi-4-mini en n'entraînant que les paramètres de LayerNorm ne parvient pas à améliorer les performances.

Configuration expérimentale et méthodologie
L'expérience a testé le fine-tuning de Phi-4-mini-instruct (3,8B, 32 couches) en entraînant uniquement les paramètres LayerNorm, appelant cette approche BALLAST. Le modèle a été exécuté sur un Mac Studio M3 Ultra 256GB utilisant MLX via la fonction train() intégrée de mlx_lm avec 97% d'utilisation GPU. W&B auto-hébergé a été utilisé pour le suivi.
Note importante : Phi-4-mini utilise RMSNorm, pas LayerNorm complet - uniquement les valeurs γ, pas de biais. L'auteur reconnaît que les articles publiés montrant des résultats positifs utilisaient des modèles avec à la fois les paramètres γ et β, ce qui importe probablement plus que ce qui était initialement réalisé.
Résultats des benchmarks
Scores de référence pour Phi-4-mini standard (sans entraînement) :
- HumanEval pass@1 : 0,646
- MBPP pass@1 : 0,558
- MMLU acc : 0,667
- ARC-Challenge acc_norm : 0,595
- HellaSwag acc_norm : 0,728
- MedQA acc : 0,545
- GSM8K exact_match : 0,813
Expérience 1 : Domaine Python
Entraîné sur 10K fichiers de The Stack avec LR=5e-5 pendant 3 époques :
- BALLAST (196K paramètres) : Perte 1,39, HumanEval 0,616 (-0,030), MBPP 0,526 (-0,032)
- LoRA-Match (180K paramètres) : Perte 1,30, HumanEval 0,634 (-0,012), MBPP 0,536 (-0,022)
- LoRA-Std (11,5M paramètres) : Perte 1,07, HumanEval 0,439 (-0,207), MBPP 0,372 (-0,186)
LoRA-Standard a montré un surapprentissage classique - 11,5M paramètres ont mémorisé 10K fichiers au lieu d'apprendre des motifs généralisables. Des tests supplémentaires avec LR=1e-4 pour BALLAST ont montré la perte descendant à 1,31 puis remontant au-dessus de 1,44 à l'itération 2300.
Expérience 2 : Texte médical brut
Entraîné sur 10K résumés PubMed avec LR=5e-5 pendant 3 époques :
- BALLAST : MedQA 0,528 (-0,017)
- LoRA-Match : MedQA 0,546 (+0,001)
- LoRA-Std : MedQA 0,465 (-0,080)
L'auteur note une erreur de débutant : l'entraînement sur des résumés PubMed bruts en prédiction de token suivant n'aide pas avec MedQA, qui teste le raisonnement clinique via des vignettes à choix multiples.
Expérience 3 : Questions-réponses médicales avec instructions
Format de données corrigé utilisant 10K questions MedMCQA avec LR=1e-5 pendant 3 époques. Format : "Question : ... A) X B) Y C) Z D) W Réponse : B"
- BALLAST : MedQA 0,538 (-0,007)
Résumé des tests de taux d'apprentissage
- LR=1e-4 sur Python : Dépassement, perte divergente à l'itération 2300
- LR=5e-5 sur Python : Plat, légère dégradation sur les benchmarks
- LR=5e-5 sur Médical (texte brut) : Plat, légère dégradation sur MedQA
- LR=1e-5 sur Médical (questions-réponses avec instructions) : Plat, légère dégradation sur MedQA
Principales conclusions
L'entraînement uniquement des valeurs γ de LayerNorm n'améliore pas les performances sur aucun benchmark testé - ni sur Python, ni sur les questions-réponses médicales, ni à aucun taux d'apprentissage. L'auteur conclut que les transformers acheminent déjà l'information dynamiquement via l'attention, donc il est inutile d'essayer d'utiliser LayerNorm comme couche de directionnalité relationnelle supplémentaire. L'expérience a utilisé seulement 196K paramètres entraînables (0,005% du modèle) comparé aux 11,5M paramètres de LoRA dans Phi-4-mini.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Claude Daily Digest : Lancement de la fonctionnalité /dream, polémique sur les limites d'utilisation et outil d'accessibilité
Anthropic a lancé la fonctionnalité /dream pour le système de mémoire automatique de Claude, tandis que la communauté fait face à des plaintes concernant les limites d'utilisation et un développeur sourd a créé un plugin de notification flash en terminal pour Claude Code.

Claude AI présente des mises à jour de plugins Cowork avec personnalisation d'entreprise et nouveaux connecteurs
Claude AI a publié des mises à jour de l'extension Cowork qui permettent aux administrateurs d'entreprise de créer des marchés d'extensions privés et d'ajouter des connecteurs pour Google Workspace, Docusign, Apollo et d'autres outils. Une nouvelle prévisualisation de recherche permet à Claude de travailler sur Excel et PowerPoint pour des analyses de bout en bout et la création de présentations.

Chute des prix des abonnements IA : pourquoi votre facture d'entreprise va être multipliée par 10
Des laboratoires d'IA comme OpenAI, Anthropic et Microsoft perdent de l'argent sur chaque abonnement. Les charges de travail agentiques ont brisé le modèle d'abonnement forfaitaire — GitHub Copilot passe à la facturation à l'usage le 1er juin 2026. Les entreprises qui ont bâti sur des prix subventionnés font face à une correction.

Analyse du sentiment anti-IA et de l'effet de la vallée dérangeante
Des enquêtes récentes montrent un scepticisme croissant du public envers l'IA, avec 55 % des Américains en mars 2026 estimant que l'IA fera plus de mal que de bien dans la vie quotidienne. L'article explore comment l'IA déclenche des réactions de vallée de l'étrange à travers des attentes sociales décalées.