Unsloth et NVIDIA collaborent pour accélérer l'entraînement des LLM d'environ 25%

✍️ OpenClawRadar📅 Publié: May 7, 2026🔗 Source
Unsloth et NVIDIA collaborent pour accélérer l'entraînement des LLM d'environ 25%
Ad

La collaboration d'Unsloth avec NVIDIA offre une accélération de l'entraînement d'environ 25% (sans perte de précision) grâce à trois optimisations clés : la mise en cache des métadonnées de séquences packagées, le checkpointing asynchrone à double tampon et des améliorations du routage MoE. Ces optimisations sont activées automatiquement sur les ordinateurs portables RTX, les GPU de centre de données et le DGX Spark avec une mise à jour d'Unsloth.

Mise en cache des métadonnées de séquences packagées

L'entraînement packagé concatène des exemples courts pour éviter le gaspillage lié au remplissage. Chaque couche de transformeur reconstruisait auparavant les mêmes métadonnées de séquence (longueurs, cu_seqlens, max_seqlen, structure du masque) à partir de zéro, entraînant une surcharge de synchronisation hôte-périphérique. En mettant en cache les métadonnées une fois par lot et en les réutilisant entre les couches, Unsloth réduit le travail répété.

Les benchmarks sur Qwen3-14B QLoRA SFT montrent :

  • Passe avant : +43,3% plus rapide
  • Passe arrière : +5,8% plus rapide
  • Globalement par lot : +14,3% plus rapide

Un microbenchmark sur les GPU NVIDIA Blackwell a mesuré le coût dominant de construction du masque à environ 13,7 ms par lot packagé. Pour Llama-3.2-1B (16 couches), cela se traduit par environ 199 ms économisées par étape (11,5% de moins) ; pour Qwen3-0.6B (28 couches), environ 319 ms économisées (14,8% de moins).

Ad

Checkpointing asynchrone à double tampon

Le checkpointing asynchrone chevauche le recalcul avec le calcul. Cela donne une accélération de 8% sans impact sur la précision.

Routage MoE : argsort + bincount

Pour les modèles MoE, l'utilisation de torch.argsort et torch.bincount au lieu de noyaux personnalisés accélère l'entraînement gpt-oss de 15%.

Toutes les optimisations sont automatiquement activées sur le matériel pris en charge. Mettez à jour Unsloth pour les obtenir.

📖 Lire la source complète : HN LLM Tools

Ad

👀 See Also

Compétence GAN pour Claude Code : Outil d'IA Adversaire pour l'Affinement d'Idées
Tools

Compétence GAN pour Claude Code : Outil d'IA Adversaire pour l'Affinement d'Idées

Une compétence Claude Code appelée /gan utilise des rôles d'IA adversariaux pour critiquer et améliorer les idées à travers des phases alternées de Discriminateur et de Générateur, avec des fonctionnalités comme les modes d'intensité, la sortie multilingue et la sélection forcée des rôles développées par auto-itération.

OpenClawRadar
AlterSpec v1.0 : Application des politiques d'exécution pour les agents d'IA
Tools

AlterSpec v1.0 : Application des politiques d'exécution pour les agents d'IA

AlterSpec v1.0 est un moteur d'exécution open-source qui s'intercale entre les agents d'IA et leurs outils, évaluant les actions par rapport à des politiques définies en YAML avant leur exécution. Il fournit des décisions d'autorisation/refus/examen, une signature cryptographique des politiques et une journalisation d'audit.

OpenClawRadar
Pont IDE Open-Source Claude Connecte Dispatch, Application de Bureau et Claude Code
Tools

Pont IDE Open-Source Claude Connecte Dispatch, Application de Bureau et Claude Code

Le claude-ide-bridge est un outil open-source sous licence MIT qui connecte Claude Code à votre IDE, fournissant un accès au LSP, au débogueur, aux terminaux, à git et à GitHub via 124 outils. Il permet un flux de travail où les tâches envoyées via Dispatch depuis un téléphone sont traitées par l'application de bureau Claude, qui utilise Claude Code pour écrire du code et exécuter des tests tout en interagissant avec l'IDE.

OpenClawRadar
Système Open Source Capture les Modèles de Code Claude dans une Documentation Évolutive
Tools

Système Open Source Capture les Modèles de Code Claude dans une Documentation Évolutive

Le développeur Lee Fuhr a publié trois dépôts open source qui capturent et codifient systématiquement les apprentissages issus du travail avec Claude Code. Le système comprend un document méthodologique avec 14 principes et 19 modèles, un cadre de classification d'architecture, et un système de mémoire avec 149 fonctionnalités.

OpenClawRadar