Qwen3-0.6B 미세 조정 파이프라인, 120B 모델 대비 29점 향상

이것이 무엇인가요

Distil Labs는 구조화된 기능 호출 작업에서 120B 매개변수 교사 모델을 능가하는 성능을 보이는 작은 0.6B 매개변수 Qwen3 모델을 미세 조정하는 완전한 파이프라인을 공개했습니다. 이 파이프라인은 생산 추적을 추출하고, 합성 훈련 데이터를 생성하며, 교사 모델보다 200배 작은 전문가 모델을 훈련시킵니다.

성능 결과

교사 모델 (GPT-OSS-120B): 50.0% 도구 호출 동등성
기본 Qwen3-0.6B (미세 조정 없음): 10.3% 도구 호출 동등성
미세 조정된 Qwen3-0.6B: 79.5% 도구 호출 동등성

작업은 IoT 스마트 홈 기능 호출입니다: "주방 조명을 켜줘" 또는 "아침 7시에 커피를 만들어줘"와 같은 자연어 명령을 올바른 매개변수와 함께 정확한 기능으로 라우팅하는 것입니다. 점수는 퍼지 점수가 아닌 정확한 구조적 일치를 기준으로 합니다.

작은 모델이 승리하는 이유

120B 교사 모델은 이러한 특정 기능 스키마나 사용자 표현 패턴을 본 적이 없는 범용 모델입니다. 종종 장황하거나 약간 형식이 다른 응답을 생성합니다. 0.6B 학생 모델은 이 작업에만 독점적으로 훈련된 전문가이므로 정확한 출력 형식을 일관되게 완벽하게 맞춥니다.

파이프라인 아키텍처

세 단계 파이프라인:

데이터 추출: dlt는 데이터베이스, API, 클라우드 스토리지 또는 로그 집계기에서 생산 추적을 추출하고 Hugging Face에 깨끗한 Parquet 데이터셋으로 기록합니다
자동 큐레이션: LLM 판사가 추적을 평가하고 필터링하여 고품질 시드 예제를 선택합니다 (수동 주석이 필요 없음)
합성 데이터 생성 및 훈련: Distil Labs는 추적을 도메인 컨텍스트로 사용하고, 대형 교사 모델로 약 10,000개의 합성 훈련 예제를 생성하며, 이를 검증하고 필터링한 후 학생 모델을 미세 조정합니다

핵심 통찰: 원시 추적을 직접 훈련하는 대신, 합성 데이터 생성기가 실제 사용자의 어휘, 기능 스키마 및 표현 패턴과 일치하는 예제를 생성하도록 컨텍스트로 사용됩니다.

데이터셋 및 실용적 세부 사항

생산 트래픽 대신 Amazon MASSIVE 데이터셋 (16,000개 이상의 발화, 60개의 의도) 사용
9개의 스마트 홈 기능을 가진 IoT 시나리오로 필터링됨
약 75개의 레이블된 시드 예제로 충분함 (자동 큐레이션, 수동 주석 없음)
훈련은 12시간 이내에 완료됨
모델 추론: 로컬에서 50ms 미만 대 클라우드 API 호출 400-700ms
Hugging Face에서 safetensors 및 GGUF 형식으로 모델 제공

생산 고려 사항

모델은 79.5% 정확한 일치율을 기록하며, 이는 약 5개의 쿼리 중 1개가 폴백이 필요할 수 있음을 의미합니다. 생산 사용을 위해서는 낮은 신뢰도 예측을 더 큰 모델로 라우팅하는 신뢰도 임계값이 필요할 것입니다.

📖 전체 출처 읽기: r/LocalLLaMA

미세 조정된 Qwen3-0.6B 모델이 구조화된 함수 호출에서 120B 교사 모델을 능가합니다

이것이 무엇인가요

성능 결과

작은 모델이 승리하는 이유

파이프라인 아키텍처

데이터셋 및 실용적 세부 사항

생산 고려 사항

👀 See Also

RelayCode VS Code 확장 기능, 클로드 코드를 주권 RDU를 통해 라우팅합니다

SimSense MCP 커넥터는 Claude 아티팩트에 영구 URL과 지속 상태를 부여합니다

OpenObscure: AI 에이전트를 위한 오픈소스 온디바이스 개인정보 보호 방화벽

RunAnywhere RCLI: Apple Silicon용 온디바이스 음성 AI 파이프라인