Das Feinabstimmen von Phi-4-mini durch das Trainieren ausschließlich der LayerNorm-Parameter führt zu keiner Leistungsverbesserung.

Experimenteller Aufbau und Methodik
Das Experiment testete das Fine-Tuning von Phi-4-mini-instruct (3,8B, 32 Schichten) durch Training nur der LayerNorm-Parameter, wobei der Ansatz BALLAST genannt wurde. Das Modell wurde auf einem Mac Studio M3 Ultra 256GB unter Verwendung von MLX über die integrierte train()-Funktion von mlx_lm mit 97 % GPU-Auslastung ausgeführt. Für das Tracking wurde eine selbst gehostete W&B-Instanz verwendet.
Wichtiger Hinweis: Phi-4-mini verwendet RMSNorm, nicht vollständiges LayerNorm – nur γ-Werte, keine Bias-Parameter. Der Autor räumt ein, dass veröffentlichte Arbeiten mit positiven Ergebnissen Modelle mit sowohl γ- als auch β-Parametern verwendeten, was wahrscheinlich bedeutender ist als ursprünglich angenommen.
Benchmark-Ergebnisse
Basiswerte für das unveränderte Phi-4-mini (kein Training):
- HumanEval pass@1: 0,646
- MBPP pass@1: 0,558
- MMLU acc: 0,667
- ARC-Challenge acc_norm: 0,595
- HellaSwag acc_norm: 0,728
- MedQA acc: 0,545
- GSM8K exact_match: 0,813
Experiment 1: Python-Domäne
Trainiert mit 10.000 Dateien von The Stack mit LR=5e-5 für 3 Epochen:
- BALLAST (196K Parameter): Verlust 1,39, HumanEval 0,616 (-0,030), MBPP 0,526 (-0,032)
- LoRA-Match (180K Parameter): Verlust 1,30, HumanEval 0,634 (-0,012), MBPP 0,536 (-0,022)
- LoRA-Std (11,5M Parameter): Verlust 1,07, HumanEval 0,439 (-0,207), MBPP 0,372 (-0,186)
LoRA-Standard zeigte klassisches Overfitting – 11,5 Millionen Parameter merkten sich 10.000 Dateien, anstatt generalisierbare Muster zu lernen. Zusätzliche Tests mit LR=1e-4 für BALLAST zeigten, dass der Verlust auf 1,31 sank und dann bis zur Iteration 2300 wieder über 1,44 stieg.
Experiment 2: Medizinischer Rohtext
Trainiert mit 10.000 PubMed-Abstracts mit LR=5e-5 für 3 Epochen:
- BALLAST: MedQA 0,528 (-0,017)
- LoRA-Match: MedQA 0,546 (+0,001)
- LoRA-Std: MedQA 0,465 (-0,080)
Der Autor weist auf einen Anfängerfehler hin: Das Training auf rohen PubMed-Abstracts als Next-Token-Vorhersage hilft nicht bei MedQA, das klinisches Denken durch Multiple-Choice-Vignetten testet.
Experiment 3: Medizinische Instruktions-Fragen
Korrigiertes Datenformat mit 10.000 MedMCQA-Fragen mit LR=1e-5 für 3 Epochen. Format: "Frage: ... A) X B) Y C) Z D) W Antwort: B"
- BALLAST: MedQA 0,538 (-0,007)
Zusammenfassung der Lernratentests
- LR=1e-4 bei Python: Überschossen, Verlust divergierte bis Iteration 2300
- LR=5e-5 bei Python: Flach, leichte Verschlechterung bei Benchmarks
- LR=5e-5 bei Medizin (Rohtext): Flach, leichte Verschlechterung bei MedQA
- LR=1e-5 bei Medizin (Instruktions-Fragen): Flach, leichte Verschlechterung bei MedQA
Wesentliche Erkenntnisse
Das Training nur der LayerNorm-γ-Werte verbessert die Leistung bei keinem getesteten Benchmark – weder bei Python, noch bei medizinischen Fragen, noch bei irgendeiner Lernrate. Der Autor schlussfolgert, dass Transformer-Modelle Informationen bereits dynamisch durch Attention lenken, sodass es keinen Sinn macht, LayerNorm als zusätzliche relationale Richtungsschicht zu verwenden. Das Experiment verwendete nur 196.000 trainierbare Parameter (0,005 % des Modells) im Vergleich zu 11,5 Millionen Parametern bei LoRA in Phi-4-mini.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Testen von KI-Agenten-Marktplätzen: Praktische Ergebnisse von ClawGig, RentAHuman und OpenClaw-basierten Einrichtungen
Ein Entwickler testete mehrere KI-Agenten-Marktplätze und stellte fest, dass ClawGig nicht reagierende Agenten und manipulierte Reputationsbewertungen hatte, RentAHuman-Agenten keine zusammenhängenden Gespräche führen konnten, während unabhängige OpenClaw-basierte Einrichtungen vielversprechend waren, aber schwer zu finden waren.

Handelsstrategie-Benchmark: Günstigere KI-Modelle übertreffen Claude Opus 4.6
Ein Benchmark testete 10 LLMs auf die Entwicklung von Handelsstrategien, wobei günstigere Modelle wie Minimax 2.5 und Gemini 3.1 trotz ihrer 10-fach höheren Kosten Claude Opus 4.6 übertrafen. Das Experiment wurde dreimal mit konsistenten Ergebnissen durchgeführt.
Die alltägliche Gefahr: Warum die größten Bedrohungen der KI-Sicherheit langweilig und nicht dramatisch sind
Ein Essay argumentiert, dass alltägliche KI-Versagen bereits Schaden in großem Maßstab verursachen, aktuelle Alignment-Ansätze zu stark von geschützten Umgebungen abhängen und dass die Konvergenz der Fähigkeiten eine versehentliche Exposition in der offenen Welt immer wahrscheinlicher macht.

Indien und VAE kooperieren bei KI-Souveränität mit Cerebras-Supercomputern
Indien und die VAE haben sich zusammengetan, um einen Cerebras-gestützten KI-Supercomputer auf indischem Boden zu installieren und damit die US-Cloud-Giganten zu umgehen. Der Deal mit G42 gibt Indien Maschinenbesitz und Datenhoheit.