Ajuste Fino do Phi-4-mini: Só LayerNorm Piora Desempenho

Configuração experimental e metodologia

O experimento testou o ajuste fino do Phi-4-mini-instruct (3.8B, 32 camadas) treinando apenas os parâmetros do LayerNorm, chamando a abordagem de BALLAST. O modelo foi executado em um Mac Studio M3 Ultra 256GB usando MLX via função train() integrada do mlx_lm com 97% de utilização da GPU. O W&B auto-hospedado foi usado para rastreamento.

Observação importante: o Phi-4-mini usa RMSNorm, não o LayerNorm completo - apenas valores γ, sem viés. O autor reconhece que os artigos publicados que mostram resultados positivos usaram modelos com ambos os parâmetros γ e β, o que provavelmente importa mais do que inicialmente percebido.

Resultados dos benchmarks

Pontuações de linha de base para o Phi-4-mini padrão (sem treinamento):

HumanEval pass@1: 0.646
MBPP pass@1: 0.558
MMLU acc: 0.667
ARC-Challenge acc_norm: 0.595
HellaSwag acc_norm: 0.728
MedQA acc: 0.545
GSM8K exact_match: 0.813

Experimento 1: Domínio Python

Treinado em 10K arquivos do The Stack com LR=5e-5 por 3 épocas:

BALLAST (196K parâmetros): Perda 1.39, HumanEval 0.616 (-0.030), MBPP 0.526 (-0.032)
LoRA-Match (180K parâmetros): Perda 1.30, HumanEval 0.634 (-0.012), MBPP 0.536 (-0.022)
LoRA-Std (11.5M parâmetros): Perda 1.07, HumanEval 0.439 (-0.207), MBPP 0.372 (-0.186)

LoRA-Standard mostrou sobreajuste clássico - 11.5M parâmetros memorizaram 10K arquivos em vez de aprender padrões generalizáveis. Testes adicionais com LR=1e-4 para BALLAST mostraram a perda caindo para 1.31 e depois subindo acima de 1.44 na iteração 2300.

Experimento 2: Texto bruto médico

Treinado em 10K resumos do PubMed com LR=5e-5 por 3 épocas:

BALLAST: MedQA 0.528 (-0.017)
LoRA-Match: MedQA 0.546 (+0.001)
LoRA-Std: MedQA 0.465 (-0.080)

O autor observa um erro de iniciante: treinar em resumos brutos do PubMed como previsão do próximo token não ajuda no MedQA, que testa raciocínio clínico por meio de vinhetas de múltipla escolha.

Experimento 3: Perguntas e respostas médicas por instrução

Formato de dados corrigido usando 10K questões do MedMCQA com LR=1e-5 por 3 épocas. Formato: "Pergunta: ... A) X B) Y C) Z D) W Resposta: B"

BALLAST: MedQA 0.538 (-0.007)

Resumo dos testes de taxa de aprendizado

LR=1e-4 em Python: Excedeu, perda divergiu na iteração 2300
LR=5e-5 em Python: Plano, ligeira degradação nos benchmarks
LR=5e-5 em Medicina (texto bruto): Plano, ligeira degradação no MedQA
LR=1e-5 em Medicina (perguntas e respostas por instrução): Plano, ligeira degradação no MedQA

Principais descobertas

Treinar apenas os valores γ do LayerNorm não melhora o desempenho em nenhum benchmark testado - nem em Python, nem em perguntas e respostas médicas, nem em nenhuma taxa de aprendizado. O autor conclui que os transformadores já direcionam informações dinamicamente por meio da atenção, portanto, não há sentido em tentar usar o LayerNorm como uma camada adicional de direcionalidade relacional. O experimento usou apenas 196K parâmetros treináveis (0.005% do modelo) em comparação com os 11.5M parâmetros do LoRA no Phi-4-mini.

📖 Leia a fonte completa: r/LocalLLaMA