O ajuste fino do Phi-4-mini treinando apenas os parâmetros do LayerNorm não melhora o desempenho.

Configuração experimental e metodologia
O experimento testou o ajuste fino do Phi-4-mini-instruct (3.8B, 32 camadas) treinando apenas os parâmetros do LayerNorm, chamando a abordagem de BALLAST. O modelo foi executado em um Mac Studio M3 Ultra 256GB usando MLX via função train() integrada do mlx_lm com 97% de utilização da GPU. O W&B auto-hospedado foi usado para rastreamento.
Observação importante: o Phi-4-mini usa RMSNorm, não o LayerNorm completo - apenas valores γ, sem viés. O autor reconhece que os artigos publicados que mostram resultados positivos usaram modelos com ambos os parâmetros γ e β, o que provavelmente importa mais do que inicialmente percebido.
Resultados dos benchmarks
Pontuações de linha de base para o Phi-4-mini padrão (sem treinamento):
- HumanEval pass@1: 0.646
- MBPP pass@1: 0.558
- MMLU acc: 0.667
- ARC-Challenge acc_norm: 0.595
- HellaSwag acc_norm: 0.728
- MedQA acc: 0.545
- GSM8K exact_match: 0.813
Experimento 1: Domínio Python
Treinado em 10K arquivos do The Stack com LR=5e-5 por 3 épocas:
- BALLAST (196K parâmetros): Perda 1.39, HumanEval 0.616 (-0.030), MBPP 0.526 (-0.032)
- LoRA-Match (180K parâmetros): Perda 1.30, HumanEval 0.634 (-0.012), MBPP 0.536 (-0.022)
- LoRA-Std (11.5M parâmetros): Perda 1.07, HumanEval 0.439 (-0.207), MBPP 0.372 (-0.186)
LoRA-Standard mostrou sobreajuste clássico - 11.5M parâmetros memorizaram 10K arquivos em vez de aprender padrões generalizáveis. Testes adicionais com LR=1e-4 para BALLAST mostraram a perda caindo para 1.31 e depois subindo acima de 1.44 na iteração 2300.
Experimento 2: Texto bruto médico
Treinado em 10K resumos do PubMed com LR=5e-5 por 3 épocas:
- BALLAST: MedQA 0.528 (-0.017)
- LoRA-Match: MedQA 0.546 (+0.001)
- LoRA-Std: MedQA 0.465 (-0.080)
O autor observa um erro de iniciante: treinar em resumos brutos do PubMed como previsão do próximo token não ajuda no MedQA, que testa raciocínio clínico por meio de vinhetas de múltipla escolha.
Experimento 3: Perguntas e respostas médicas por instrução
Formato de dados corrigido usando 10K questões do MedMCQA com LR=1e-5 por 3 épocas. Formato: "Pergunta: ... A) X B) Y C) Z D) W Resposta: B"
- BALLAST: MedQA 0.538 (-0.007)
Resumo dos testes de taxa de aprendizado
- LR=1e-4 em Python: Excedeu, perda divergiu na iteração 2300
- LR=5e-5 em Python: Plano, ligeira degradação nos benchmarks
- LR=5e-5 em Medicina (texto bruto): Plano, ligeira degradação no MedQA
- LR=1e-5 em Medicina (perguntas e respostas por instrução): Plano, ligeira degradação no MedQA
Principais descobertas
Treinar apenas os valores γ do LayerNorm não melhora o desempenho em nenhum benchmark testado - nem em Python, nem em perguntas e respostas médicas, nem em nenhuma taxa de aprendizado. O autor conclui que os transformadores já direcionam informações dinamicamente por meio da atenção, portanto, não há sentido em tentar usar o LayerNorm como uma camada adicional de direcionalidade relacional. O experimento usou apenas 196K parâmetros treináveis (0.005% do modelo) em comparação com os 11.5M parâmetros do LoRA no Phi-4-mini.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Investimento de US$ 200 bilhões da Micron visa a restrições de memória para IA
Micron compromete US$ 200 bilhões para resolver gargalos de memória em IA, visando aprimorar as capacidades de processamento de inteligência artificial.

OpenClaw 2026.3.13 regressão causa relatórios de status inalcançáveis falsos
A versão 2026.3.13 do OpenClaw introduziu uma regressão de diagnóstico onde comandos de status relatam falsamente gateways inacessíveis, apesar das sondas RPC funcionarem corretamente. Reverter para a versão 2026.3.12 resolve o problema.

Tencent Realiza Evento Gratuito de Instalação do OpenClaw em Shenzhen Diante da Alta Demanda
A Tencent organizou 20 funcionários do lado de fora de seu prédio de escritórios em Shenzhen para instalar o OpenClaw gratuitamente em 6 de março, em resposta a relatos de pessoas pagando mais de US$ 70 por serviços de instalação em domicílio. O evento utilizou a plataforma Lighthouse da Tencent Cloud, com a maioria dos participantes sendo profissionais de colarinho branco enfrentando pressão da competição no local de trabalho e da adoção de IA.

Anthropic dobra limites de taxa do Claude Code e fecha acordo de computação com a SpaceX
Os limites de taxa de cinco horas do Claude Code foram dobrados para os planos Pro/Max/Team/Enterprise, as reduções de horário de pico foram removidas e os limites de taxa da API foram aumentados para modelos Opus. O Colossus 1 da SpaceX adiciona mais de 300 MW de capacidade (220 mil GPUs NVIDIA) em um mês.