미세 조정된 Qwen3-0.6B 모델이 구조화된 함수 호출에서 120B 교사 모델을 능가합니다

이것이 무엇인가요
Distil Labs는 구조화된 기능 호출 작업에서 120B 매개변수 교사 모델을 능가하는 성능을 보이는 작은 0.6B 매개변수 Qwen3 모델을 미세 조정하는 완전한 파이프라인을 공개했습니다. 이 파이프라인은 생산 추적을 추출하고, 합성 훈련 데이터를 생성하며, 교사 모델보다 200배 작은 전문가 모델을 훈련시킵니다.
성능 결과
- 교사 모델 (GPT-OSS-120B): 50.0% 도구 호출 동등성
- 기본 Qwen3-0.6B (미세 조정 없음): 10.3% 도구 호출 동등성
- 미세 조정된 Qwen3-0.6B: 79.5% 도구 호출 동등성
작업은 IoT 스마트 홈 기능 호출입니다: "주방 조명을 켜줘" 또는 "아침 7시에 커피를 만들어줘"와 같은 자연어 명령을 올바른 매개변수와 함께 정확한 기능으로 라우팅하는 것입니다. 점수는 퍼지 점수가 아닌 정확한 구조적 일치를 기준으로 합니다.
작은 모델이 승리하는 이유
120B 교사 모델은 이러한 특정 기능 스키마나 사용자 표현 패턴을 본 적이 없는 범용 모델입니다. 종종 장황하거나 약간 형식이 다른 응답을 생성합니다. 0.6B 학생 모델은 이 작업에만 독점적으로 훈련된 전문가이므로 정확한 출력 형식을 일관되게 완벽하게 맞춥니다.
파이프라인 아키텍처
세 단계 파이프라인:
- 데이터 추출: dlt는 데이터베이스, API, 클라우드 스토리지 또는 로그 집계기에서 생산 추적을 추출하고 Hugging Face에 깨끗한 Parquet 데이터셋으로 기록합니다
- 자동 큐레이션: LLM 판사가 추적을 평가하고 필터링하여 고품질 시드 예제를 선택합니다 (수동 주석이 필요 없음)
- 합성 데이터 생성 및 훈련: Distil Labs는 추적을 도메인 컨텍스트로 사용하고, 대형 교사 모델로 약 10,000개의 합성 훈련 예제를 생성하며, 이를 검증하고 필터링한 후 학생 모델을 미세 조정합니다
핵심 통찰: 원시 추적을 직접 훈련하는 대신, 합성 데이터 생성기가 실제 사용자의 어휘, 기능 스키마 및 표현 패턴과 일치하는 예제를 생성하도록 컨텍스트로 사용됩니다.
데이터셋 및 실용적 세부 사항
- 생산 트래픽 대신 Amazon MASSIVE 데이터셋 (16,000개 이상의 발화, 60개의 의도) 사용
- 9개의 스마트 홈 기능을 가진 IoT 시나리오로 필터링됨
- 약 75개의 레이블된 시드 예제로 충분함 (자동 큐레이션, 수동 주석 없음)
- 훈련은 12시간 이내에 완료됨
- 모델 추론: 로컬에서 50ms 미만 대 클라우드 API 호출 400-700ms
- Hugging Face에서 safetensors 및 GGUF 형식으로 모델 제공
생산 고려 사항
모델은 79.5% 정확한 일치율을 기록하며, 이는 약 5개의 쿼리 중 1개가 폴백이 필요할 수 있음을 의미합니다. 생산 사용을 위해서는 낮은 신뢰도 예측을 더 큰 모델로 라우팅하는 신뢰도 임계값이 필요할 것입니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

PaperclipAI: 인간 개입 없이 운영되는 기업을 위한 오픈소스 오케스트레이션
PaperclipAI는 완전 자동화 기업을 위한 오픈소스 오케스트레이션 프레임워크입니다. 이 프로젝트는 출시 첫 주에 GitHub 스타 14,000개를 얻었습니다.

소피아 메타 에이전트 - AI 에이전트 유지보수용
SOPHIA는 생산 환경에서 AI 에이전트 성능 저하라는 실질적인 문제를 해결하기 위해 설계된 메타 에이전트입니다. 영업, 임상 문서화, 고객 서비스용 에이전트를 운영할 때 프롬프트가 진부해지고, 도구가 변질되며, 사용자 행동이 시간이 지남에 따라 변화할 수 있습니다. SOPHIA는 시스템 내 모든 다른 에이전트를 관찰, 진단, 연구 및 개선안을 제안하는 최고 학습 책임자 역할을 합니다.

FixAI Dev: Claude Haiku를 활용한 엄격한 JSON 계약 기반 소비자 권리 게임
한 개발자가 Claude Haiku를 기업 AI로 활용하여 소비자 요청을 부당하게 거부하는 상황을 시뮬레이션하는 브라우저 게임 'FixAI Dev'를 만들었습니다. 플레이어는 실제 소비자 보호 법률을 사용하여 반박하며, 법적으로 타당한 주장을 펼칠수록 AI의 확신도가 떨어집니다.

다중 에이전트 AI 시스템 비교: Anthropic의 Harness 대 Agyn의 엔지니어링 조직 모델
Anthropic은 장기 실행 애플리케이션 개발을 위한 하네스 설계를 발표한 반면, Agyn의 팀 기반 자율 소프트웨어 엔지니어링을 위한 다중 에이전트 시스템은 지난달 오픈소스로 공개되었습니다. 두 시스템 모두 단일 에이전트 모델을 거부하고 역할 분리, 구조화된 인계, 검토 루프를 선호합니다.