O ajuste fino do Phi-4-mini treinando apenas os parâmetros do LayerNorm não melhora o desempenho.

✍️ OpenClawRadar📅 Publicado: April 21, 2026🔗 Source
O ajuste fino do Phi-4-mini treinando apenas os parâmetros do LayerNorm não melhora o desempenho.
Ad

Configuração experimental e metodologia

O experimento testou o ajuste fino do Phi-4-mini-instruct (3.8B, 32 camadas) treinando apenas os parâmetros do LayerNorm, chamando a abordagem de BALLAST. O modelo foi executado em um Mac Studio M3 Ultra 256GB usando MLX via função train() integrada do mlx_lm com 97% de utilização da GPU. O W&B auto-hospedado foi usado para rastreamento.

Observação importante: o Phi-4-mini usa RMSNorm, não o LayerNorm completo - apenas valores γ, sem viés. O autor reconhece que os artigos publicados que mostram resultados positivos usaram modelos com ambos os parâmetros γ e β, o que provavelmente importa mais do que inicialmente percebido.

Resultados dos benchmarks

Pontuações de linha de base para o Phi-4-mini padrão (sem treinamento):

  • HumanEval pass@1: 0.646
  • MBPP pass@1: 0.558
  • MMLU acc: 0.667
  • ARC-Challenge acc_norm: 0.595
  • HellaSwag acc_norm: 0.728
  • MedQA acc: 0.545
  • GSM8K exact_match: 0.813

Experimento 1: Domínio Python

Treinado em 10K arquivos do The Stack com LR=5e-5 por 3 épocas:

  • BALLAST (196K parâmetros): Perda 1.39, HumanEval 0.616 (-0.030), MBPP 0.526 (-0.032)
  • LoRA-Match (180K parâmetros): Perda 1.30, HumanEval 0.634 (-0.012), MBPP 0.536 (-0.022)
  • LoRA-Std (11.5M parâmetros): Perda 1.07, HumanEval 0.439 (-0.207), MBPP 0.372 (-0.186)

LoRA-Standard mostrou sobreajuste clássico - 11.5M parâmetros memorizaram 10K arquivos em vez de aprender padrões generalizáveis. Testes adicionais com LR=1e-4 para BALLAST mostraram a perda caindo para 1.31 e depois subindo acima de 1.44 na iteração 2300.

Ad

Experimento 2: Texto bruto médico

Treinado em 10K resumos do PubMed com LR=5e-5 por 3 épocas:

  • BALLAST: MedQA 0.528 (-0.017)
  • LoRA-Match: MedQA 0.546 (+0.001)
  • LoRA-Std: MedQA 0.465 (-0.080)

O autor observa um erro de iniciante: treinar em resumos brutos do PubMed como previsão do próximo token não ajuda no MedQA, que testa raciocínio clínico por meio de vinhetas de múltipla escolha.

Experimento 3: Perguntas e respostas médicas por instrução

Formato de dados corrigido usando 10K questões do MedMCQA com LR=1e-5 por 3 épocas. Formato: "Pergunta: ... A) X B) Y C) Z D) W Resposta: B"

  • BALLAST: MedQA 0.538 (-0.007)

Resumo dos testes de taxa de aprendizado

  • LR=1e-4 em Python: Excedeu, perda divergiu na iteração 2300
  • LR=5e-5 em Python: Plano, ligeira degradação nos benchmarks
  • LR=5e-5 em Medicina (texto bruto): Plano, ligeira degradação no MedQA
  • LR=1e-5 em Medicina (perguntas e respostas por instrução): Plano, ligeira degradação no MedQA

Principais descobertas

Treinar apenas os valores γ do LayerNorm não melhora o desempenho em nenhum benchmark testado - nem em Python, nem em perguntas e respostas médicas, nem em nenhuma taxa de aprendizado. O autor conclui que os transformadores já direcionam informações dinamicamente por meio da atenção, portanto, não há sentido em tentar usar o LayerNorm como uma camada adicional de direcionalidade relacional. O experimento usou apenas 196K parâmetros treináveis (0.005% do modelo) em comparação com os 11.5M parâmetros do LoRA no Phi-4-mini.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Investimento de US$ 200 bilhões da Micron visa a restrições de memória para IA
News

Investimento de US$ 200 bilhões da Micron visa a restrições de memória para IA

Micron compromete US$ 200 bilhões para resolver gargalos de memória em IA, visando aprimorar as capacidades de processamento de inteligência artificial.

OpenClawRadar
OpenClaw 2026.3.13 regressão causa relatórios de status inalcançáveis falsos
News

OpenClaw 2026.3.13 regressão causa relatórios de status inalcançáveis falsos

A versão 2026.3.13 do OpenClaw introduziu uma regressão de diagnóstico onde comandos de status relatam falsamente gateways inacessíveis, apesar das sondas RPC funcionarem corretamente. Reverter para a versão 2026.3.12 resolve o problema.

OpenClawRadar
Tencent Realiza Evento Gratuito de Instalação do OpenClaw em Shenzhen Diante da Alta Demanda
News

Tencent Realiza Evento Gratuito de Instalação do OpenClaw em Shenzhen Diante da Alta Demanda

A Tencent organizou 20 funcionários do lado de fora de seu prédio de escritórios em Shenzhen para instalar o OpenClaw gratuitamente em 6 de março, em resposta a relatos de pessoas pagando mais de US$ 70 por serviços de instalação em domicílio. O evento utilizou a plataforma Lighthouse da Tencent Cloud, com a maioria dos participantes sendo profissionais de colarinho branco enfrentando pressão da competição no local de trabalho e da adoção de IA.

OpenClawRadar
Anthropic dobra limites de taxa do Claude Code e fecha acordo de computação com a SpaceX
News

Anthropic dobra limites de taxa do Claude Code e fecha acordo de computação com a SpaceX

Os limites de taxa de cinco horas do Claude Code foram dobrados para os planos Pro/Max/Team/Enterprise, as reduções de horário de pico foram removidas e os limites de taxa da API foram aumentados para modelos Opus. O Colossus 1 da SpaceX adiciona mais de 300 MW de capacidade (220 mil GPUs NVIDIA) em um mês.

OpenClawRadar