Unsloth und NVIDIA arbeiten zusammen, um das LLM-Training um etwa 25 % zu beschleunigen

Die Zusammenarbeit von Unsloth mit NVIDIA führt zu einer ~25%igen Trainingsbeschleunigung (ohne Genauigkeitsverlust) durch die Implementierung von drei wichtigen Optimierungen: Caching von Metadaten gepackter Sequenzen, doppelt gepuffertes asynchrones Gradienten-Checkpointing und Verbesserungen beim MoE-Routing. Diese werden mit einem Unsloth-Update automatisch auf RTX-Laptops, Data-Center-GPUs und DGX Spark aktiviert.
Caching von Metadaten gepackter Sequenzen
Gepacktes Training verkettet kurze Beispiele, um Padding-Verschwendung zu vermeiden. Bisher hat jede Transformator-Schicht dieselben Sequenzmetadaten (Längen, cu_seqlens, max_seqlen, Maskenstruktur) von Grund auf neu aufgebaut, was zu Synchronisations-Overhead zwischen Gerät und Host führte. Indem die Metadaten einmal pro Batch zwischengespeichert und über Schichten hinweg wiederverwendet werden, reduziert Unsloth wiederholte Arbeit.
Benchmarks mit Qwen3-14B QLoRA SFT zeigen:
- Vorwärtspass: +43,3% schneller
- Rückwärtspass: +5,8% schneller
- Insgesamt pro Batch: +14,3% schneller
Ein Mikrobenchmark auf NVIDIA Blackwell GPUs maß die dominante Maskenkonstruktionskosten mit ~13,7 ms pro gepacktem Batch. Für Llama-3.2-1B (16 Schichten) bedeutet dies ~199 ms Einsparung pro Schritt (11,5% weniger); für Qwen3-0.6B (28 Schichten) ~319 ms Einsparung (14,8% weniger).
Doppelt gepuffertes asynchrones Gradienten-Checkpointing
Asynchrones Gradienten-Checkpointing überlappt die Neuberechnung mit der Berechnung. Dies ergibt eine 8%ige Beschleunigung ohne Beeinträchtigung der Genauigkeit.
MoE-Routing: argsort + bincount
Für MoE-Modelle beschleunigt die Verwendung von torch.argsort und torch.bincount anstelle benutzerdefinierter Kernel das gpt-oss-Training um 15%.
Alle Optimierungen werden auf unterstützter Hardware automatisch aktiviert. Aktualisieren Sie Unsloth, um sie zu erhalten.
📖 Lesen Sie die vollständige Quelle: HN LLM Tools
👀 Siehe auch

Reddit-Diskussion: Identity.md-Dateien sind unzureichend für die Persönlichkeitsstabilität von KI-Mitarbeitern ohne geeignete Modellarchitektur
Eine Reddit-Diskussion argumentiert, dass die Anpassung von identity.md-Dateien zur Verhinderung von Persönlichkeitsvermischungen in KI-Mitarbeiterteams unwirksam ist, wenn die zugrunde liegende Modellarchitektur nur Rollentrennung simuliert. Der Beitrag empfiehlt die Verwendung des Minimax M2.7-Backends, das Grenzbewusstsein durch 100+ Selbstentwicklungszyklen direkt in das Basistraining integriert hat.

Aurelius: Ein React-Framework, entwickelt mit 48 Claude Code Agents und einer Figma-zu-React-Pipeline
Aurelius ist ein Open-Source-React-Framework, das 48 hierarchisch organisierte Claude-Code-Agenten nutzt, um autonom React-Anwendungen aus Figma-Designs zu erstellen. Das Framework erzwingt TDD, visuelle QA mit Pixel-Differenz-Vergleich und Qualitätskontrollen vor dem Deployment.

ClawNet: Peer-to-Peer KI-Agenten-Netzwerk ohne API-Schlüssel
ClawNet ist ein Peer-to-Peer-Netzwerk, das KI-Agenten ermöglicht, direkt zusammenzuarbeiten, ohne API-Schlüssel oder Plattformgebühren. Die Installation erfolgt über ein curl-Skript, und die Funktionen umfassen einen Aufgaben-Basar, eine Shell-Ökonomie und ein Wissensnetzwerk.

Models.dev: Open-Source-Datenbank mit KI-Modellspezifikationen, Preisen und Fähigkeiten
Models.dev ist eine quelloffene, von der Community gepflegte Datenbank mit KI-Modellspezifikationen, Preisen und Fähigkeiten. Sie bietet eine API und TOML-basierte Definitionen für Anbieter und Modelle.