Unsloth와 NVIDIA 협력, LLM 훈련 속도 약 25% 향상

✍️ OpenClawRadar📅 게시일: May 7, 2026🔗 Source
Unsloth와 NVIDIA 협력, LLM 훈련 속도 약 25% 향상
Ad

Unsloth와 NVIDIA의 협업으로 세 가지 핵심 최적화를 구현하여 ~25%의 학습 속도 향상(정확도 손실 없음)을 달성했습니다: 패킹된 시퀀스 메타데이터 캐싱, 이중 버퍼 비동기 그래디언트 체크포인팅, MoE 라우팅 개선. 이러한 최적화는 Unsloth 업데이트와 함께 RTX 노트북, 데이터센터 GPU, DGX Spark에서 자동 활성화됩니다.

패킹된 시퀀스 메타데이터 캐싱

패킹 트레이닝은 짧은 예제를 연결하여 패딩 낭비를 방지합니다. 이전에는 각 트랜스포머 레이어가 동일한 시퀀스 메타데이터(길이, cu_seqlens, max_seqlen, 마스크 구조)를 매번 처음부터 재구성하여 디바이스-호스트 동기화 오버헤드가 발생했습니다. Unsloth는 메타데이터를 배치당 한 번 캐싱하고 레이어 전체에서 재사용하여 반복 작업을 줄입니다.

Qwen3-14B QLoRA SFT 벤치마크 결과:

  • 순전파: +43.3% 더 빠름
  • 역전파: +5.8% 더 빠름
  • 배치당 전체: +14.3% 더 빠름

NVIDIA Blackwell GPU에서의 마이크로벤치마크에서는 주요 마스크 구성 비용이 패킹된 배치당 약 13.7ms로 측정되었습니다. Llama-3.2-1B(16레이어)의 경우 단계당 약 199ms 절약(11.5% 감소), Qwen3-0.6B(28레이어)의 경우 약 319ms 절약(14.8% 감소)됩니다.

이중 버퍼 비동기 그래디언트 체크포인팅

비동기 그래디언트 체크포인팅은 재계산과 계산을 중첩시킵니다. 정확도에 영향을 주지 않으면서 8%의 속도 향상을 제공합니다.

MoE 라우팅: argsort + bincount

MoE 모델의 경우, 커스텀 커널 대신 torch.argsorttorch.bincount를 사용하면 gpt-oss 학습 속도가 15% 향상됩니다.

모든 최적화는 지원 하드웨어에서 자동 활성화됩니다. Unsloth를 업데이트하여 적용하세요.

📖 전체 소스 읽기: HN LLM Tools

Ad

👀 See Also

Argus: Claude Code 세션 비용 및 동작을 디버깅하기 위한 VS Code 확장
Tools

Argus: Claude Code 세션 비용 및 동작을 디버깅하기 위한 VS Code 확장

개발자가 VS Code 확장 프로그램 Argus를 만들었습니다. Claude Code JSONL 트랜스크립트를 구문 분석하여 실시간 타임라인에 각 단계별 토큰/비용 분석, 캐시 적중률, 재시도 루프, 중복 읽기, 컨텍스트 압박 플래그를 제공합니다.

OpenClawRadar
Vibeyard IDE는 AI 에이전트를 통한 직접적인 웹 UI 편집을 위해 내장 브라우저를 추가합니다.
Tools

Vibeyard IDE는 AI 에이전트를 통한 직접적인 웹 UI 편집을 위해 내장 브라우저를 추가합니다.

AI 코딩 에이전트를 위한 오픈소스 IDE인 Vibeyard가 이제 웹 UI에서 요소를 클릭하고 AI 에이전트에게 직접 수정하도록 지시할 수 있는 브라우저 탭 세션 유형을 포함했습니다. 이를 통해 선택자 추측과 컴포넌트 찾기에 소요되는 시간을 없앨 수 있습니다.

OpenClawRadar
OpenClaw의 보안, 비용, 복잡성 문제를 해결하는 여섯 가지 오픈소스 도구
Tools

OpenClaw의 보안, 비용, 복잡성 문제를 해결하는 여섯 가지 오픈소스 도구

한 개발자가 Cisco가 지적한 OpenClaw의 보안 취약점, 급증하는 비용, 복잡한 설정을 해결하기 위해 6가지 커뮤니티 도구를 테스트했습니다. ClawSec는 보안 스캔과 무결성 검증을 제공하고, Antfarm은 결정론적 멀티 에이전트 워크플로우를 가능하게 하며, LanceDB Pro는 하이브리드 벡터 검색으로 메모리 검색을 개선합니다.

OpenClawRadar
컨텍스트-링크 v1.0.0: 로컬 MCP 서버로 Claude Code 토큰 사용량 91% 감소
Tools

컨텍스트-링크 v1.0.0: 로컬 MCP 서버로 Claude Code 토큰 사용량 91% 감소

context-link v1.0.0은 Tree-sitter를 사용하여 코드베이스를 인덱싱하는 로컬 MCP 서버로, Claude에게 필요한 정확한 심볼, 의존성 및 구조만 제공하여 특정 경우에는 토큰 사용량을 91% 줄이고, 전체 작업에서는 70-80% 절감합니다.

OpenClawRadar