Unsloth e NVIDIA colaboram para acelerar o treinamento de LLMs em ~25%

✍️ OpenClawRadar📅 Publicado: May 7, 2026🔗 Source
Unsloth e NVIDIA colaboram para acelerar o treinamento de LLMs em ~25%
Ad

A colaboração da Unsloth com a NVIDIA resulta em ~25% de aceleração no treinamento (sem perda de precisão) através da implementação de três otimizações principais: cache de metadados de sequências empacotadas, checkpointing de gradiente assíncrono com buffer duplo e melhorias no roteamento MoE. Estas são ativadas automaticamente em laptops RTX, GPUs de data center e DGX Spark com uma atualização do Unsloth.

Cache de Metadados de Sequências Empacotadas

O treinamento empacotado concatena exemplos curtos para evitar desperdício de preenchimento. Cada camada do transformer anteriormente recriava os mesmos metadados de sequência (comprimentos, cu_seqlens, max_seqlen, estrutura da máscara) do zero, causando sobrecarga de sincronização dispositivo-hospedeiro. Ao armazenar em cache os metadados uma vez por lote e reutilizá-los entre camadas, o Unsloth reduz o trabalho repetido.

Benchmarks no Qwen3-14B QLoRA SFT mostram:

  • Forward pass: +43,3% mais rápido
  • Backward pass: +5,8% mais rápido
  • Geral por lote: +14,3% mais rápido

Um microbenchmark em GPUs NVIDIA Blackwell mediu o custo dominante de construção de máscara em ~13,7 ms por lote empacotado. Para Llama-3.2-1B (16 camadas), isso se traduz em ~199 ms economizados por passo (11,5% menor); para Qwen3-0.6B (28 camadas), ~319 ms economizados (14,8% menor).

Ad

Checkpointing de Gradiente Assíncrono com Buffer Duplo

O checkpointing de gradiente assíncrono sobrepõe recomputação com computação. Isso proporciona uma aceleração de 8% sem impactar a precisão.

Roteamento MoE: argsort + bincount

Para modelos MoE, usar torch.argsort e torch.bincount em vez de kernels personalizados acelera o treinamento gpt-oss em 15%.

Todas as otimizações são ativadas automaticamente em hardware suportado. Atualize o Unsloth para obtê-las.

📖 Leia a fonte completa: HN LLM Tools

Ad

👀 See Also

Executando OpenClaw e Codex CLI Nativamente no Android via APK AnyClaw
Tools

Executando OpenClaw e Codex CLI Nativamente no Android via APK AnyClaw

Um desenvolvedor empacotou o OpenClaw e o Codex CLI em um APK Android chamado AnyClaw, permitindo que o gateway e a Interface de Controle sejam executados localmente em dispositivos Android ARM64 7.0+ sem necessidade de root. O projeto exigiu a construção de dependências a partir do código-fonte e a correção de múltiplos componentes para lidar com restrições específicas do Android.

OpenClawRadar
AGENTES-COLEÇÃO: 129 Agentes Claude Code Organizados em um Repositório
Tools

AGENTES-COLEÇÃO: 129 Agentes Claude Code Organizados em um Repositório

Um desenvolvedor compilou 129 agentes Claude Code em um único repositório no formato ~/.claude/agents/, pronto para instalação com um simples comando de cópia. A coleção inclui o sistema completo agency-agents com 68 agentes baseados em personalidades em múltiplas disciplinas, além de agentes adicionais para fluxos de trabalho de equipes multiagentes.

OpenClawRadar
Fewshell: Um Copiloto SSH Auto-hospedado que Recusa Executar Comandos sem Aprovação Humana
Tools

Fewshell: Um Copiloto SSH Auto-hospedado que Recusa Executar Comandos sem Aprovação Humana

Fewshell é um copiloto SSH mobile+desktop com aprovação humana obrigatória para cada comando – não há configuração para ativar a aprovação automática. Construído por um ex-engenheiro de IA da Amazon que trabalha em pesquisa de segurança de IA.

OpenClawRadar
DecisionNode: CLI e Servidor MCP para Armazenamento de Decisões Semânticas
Tools

DecisionNode: CLI e Servidor MCP para Armazenamento de Decisões Semânticas

DecisionNode é um servidor CLI e MCP apenas local que armazena decisões estruturadas como JSON, as incorpora como vetores para busca semântica e as torna acessíveis em ferramentas de IA via MCP. É licenciado sob MIT e projetado para funcionar com Claude Code, Cursor, Windsurf, Antigravity e outros clientes MCP.

OpenClawRadar