Unsloth et NVIDIA accélèrent l'entraînement LLM de 25%

La collaboration d'Unsloth avec NVIDIA offre une accélération de l'entraînement d'environ 25% (sans perte de précision) grâce à trois optimisations clés : la mise en cache des métadonnées de séquences packagées, le checkpointing asynchrone à double tampon et des améliorations du routage MoE. Ces optimisations sont activées automatiquement sur les ordinateurs portables RTX, les GPU de centre de données et le DGX Spark avec une mise à jour d'Unsloth.

Mise en cache des métadonnées de séquences packagées

L'entraînement packagé concatène des exemples courts pour éviter le gaspillage lié au remplissage. Chaque couche de transformeur reconstruisait auparavant les mêmes métadonnées de séquence (longueurs, cu_seqlens, max_seqlen, structure du masque) à partir de zéro, entraînant une surcharge de synchronisation hôte-périphérique. En mettant en cache les métadonnées une fois par lot et en les réutilisant entre les couches, Unsloth réduit le travail répété.

Les benchmarks sur Qwen3-14B QLoRA SFT montrent :

Passe avant : +43,3% plus rapide
Passe arrière : +5,8% plus rapide
Globalement par lot : +14,3% plus rapide

Un microbenchmark sur les GPU NVIDIA Blackwell a mesuré le coût dominant de construction du masque à environ 13,7 ms par lot packagé. Pour Llama-3.2-1B (16 couches), cela se traduit par environ 199 ms économisées par étape (11,5% de moins) ; pour Qwen3-0.6B (28 couches), environ 319 ms économisées (14,8% de moins).

Checkpointing asynchrone à double tampon

Le checkpointing asynchrone chevauche le recalcul avec le calcul. Cela donne une accélération de 8% sans impact sur la précision.

Routage MoE : argsort + bincount

Pour les modèles MoE, l'utilisation de torch.argsort et torch.bincount au lieu de noyaux personnalisés accélère l'entraînement gpt-oss de 15%.

Toutes les optimisations sont automatiquement activées sur le matériel pris en charge. Mettez à jour Unsloth pour les obtenir.

📖 Lire la source complète : HN LLM Tools

Unsloth et NVIDIA collaborent pour accélérer l'entraînement des LLM d'environ 25%

Mise en cache des métadonnées de séquences packagées

Checkpointing asynchrone à double tampon

Routage MoE : argsort + bincount

👀 See Also

Remplacer Kafka, Redis et RabbitMQ par NATS : l'expérience d'un développeur

DeepMind DiscoRL Règle de Mise à Jour par Apprentissage Méta Portée de JAX à PyTorch

Passeport de Décision : Une Couche d'Audit pour la Gouvernance de l'Exécution des Agents IA

Dirac : un agent open-source domine TerminalBench avec 65,2 %, moins cher et ouvert