Otimizando o AutoResearch no RTX 5090: O que falhou e o que funcionou

Problemas Iniciais e Caminho Funcional
A configuração inicial para executar o AutoResearch em um sistema RTX 5090/Blackwell estava "totalmente quebrada" com desempenho extremamente ruim—apenas alguns milhares de tokens por segundo e MFU (Utilização de FLOPs do Modelo) praticamente inútil, apesar do código estar tecnicamente em execução.
O caminho de configuração funcional envolveu:
- Evitar o caminho de compilação do modelo completo que estava quebrado nesta configuração
- Manter as boas melhorias de compilação do otimizador fundido onde elas realmente ajudavam
- Usar o caminho estável de atenção SDPA/CuDNN
- Ajustar o lote total e o orçamento de tempo empiricamente em vez de adivinhar
- Automatizar o ciclo de benchmark/extração/estratégia/re-execução
O Que Falhou
Vários modos de falha foram enganosos:
- Um caminho que era tecnicamente correto, mas catastróficamente lento
- Interpretação enganosa do MFU até que o denominador foi corrigido para o contexto da 5090
- Configurações de lote por dispositivo maiores que pareciam que deveriam ajudar, mas na verdade pioraram muito as coisas
- Bugs de automação em torno de limpeza de bloqueios/ganchos de conclusão/ordem de despacho
Como o desenvolvedor observou: "Havia várias maneiras de obter uma execução que parecia viva enquanto fazia algo estúpido."
O Que Ajudou
As melhorias reais vieram de:
- Reativar o caminho de compilação do otimizador fundido
- Reduzir o lote total da configuração original maior
- Validar 2**17 como a região de lote total melhor
- Aumentar o orçamento de tempo uma vez que o regime de lote estável foi encontrado
- Tratar a automação como parte do sistema de benchmark, não como uma reflexão tardia
Progressão de Desempenho
A progressão das execuções úteis mostrou melhorias claras:
- Execução saudável de linha de base: val_bpb: 1.165452, mfu: 40.49%
- Melhoria da compilação do otimizador fundido: val_bpb: 1.155400, mfu: 42.88%
- TOTAL_BATCH_SIZE = 2**18: val_bpb: 1.108381, mfu: 43.18%
- Validação TOTAL_BATCH_SIZE = 2**17: val_bpb: 1.089424, mfu: 43.03%
- Melhor resultado atual do loop automático: TOTAL_BATCH_SIZE = 2**17, TIME_BUDGET = 1200, multiplicador LR = 1.0, val_bpb: 0.999445, mfu: 42.56%, total_tokens_M: 387.8, num_steps: 2959
Melhor Configuração Atual
O melhor resultado encontrado até agora:
- TOTAL_BATCH_SIZE = 2**17
- TIME_BUDGET = 1200
- Multiplicador LR = 1.0
Esta combinação superou variantes de lote maiores, a variante menor 2**16, um teste de LR mais baixo e orçamentos de treinamento mais curtos.
Principais Conclusões
A principal lição foi que a configuração vencedora não era uma configuração de "maximizar tudo". O caminho melhor envolveu um regime de lote estável, um horizonte de treinamento mais longo e a eliminação cuidadosa de erros de automação e backend.
O desenvolvedor enfatizou que se você está trabalhando no treinamento Blackwell/5090 e vendo comportamento bizarro, "pode não ser sua imaginação. Alguns caminhos são simplesmente muito piores do que parecem inicialmente." A parte útil deste exercício foi encontrar um caminho que é estável, automatizável, reproduzível e bom o suficiente para construir experimentos reais de acompanhamento sobre ele.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Dominando o Backup: Protegendo Seu Agente OpenClaw
Em uma era dominada pela automação e IA, garantir a segurança do seu agente OpenClaw por meio de estratégias robustas de backup é fundamental. Aprenda os passos essenciais para proteger seu assistente digital.

Corrigindo erros 'Falha ao iniciar o espaço de trabalho' do Claude Cowork no Windows 11 Home
Um usuário resolveu os erros de inicialização do Claude Cowork no Windows 11 Home instalando o Windows Subsystem for Linux (WSL2) da Microsoft Store, que é necessário para a tecnologia de VM subjacente.

Lições Práticas da Construção de IA no Dispositivo em React Native
Um desenvolvedor compartilha detalhes técnicos específicos da construção de um aplicativo React Native com LLMs no dispositivo, geração de imagens, transcrição de voz e visão de IA, incluindo estratégias de gerenciamento de memória, escolhas de bibliotecas e benchmarks de desempenho.

Problemas e Soluções de Configuração de Acesso Condicional do Claude Code O365 MCP
Um desenvolvedor compartilha soluções específicas para dois problemas encontrados ao configurar o conector O365 MCP do Claude Code sob políticas de acesso condicional: encontrar os IDs de aplicativos corretos para regras de política e resolver erros de autenticação relacionados a localizações de servidores.