증류 Qwen3 모델, 6/9 작업서 최첨단 성능·비용 98% 절감

벤치마크 결과: 증류 모델 vs 최첨단 모델

연구자들은 분류, 함수 호출, 질의응답, 오픈북 질의응답 작업을 포함하는 9개 데이터셋에서 소형 증류 모델과 최첨단 LLM을 포괄적으로 비교했습니다. 모든 증류 모델은 Qwen3 패밀리(0.6B~8B)로, 최첨단 API 출력 없이 오픈 가중치 교사 모델을 사용하여 최소 50개의 예시만으로 학습되었습니다.

주요 성능 발견 사항

증류 모델은 9개 작업 중 6개에서 최고 중간 수준 최첨단 모델(<$1/MTok 입력)과 동등하거나 더 나은 성능을 보이며, 7번째 작업에서는 사실상 동률을 기록했습니다
Text2SQL: Qwen3-4B 증류 모델은 98.0% 정확도를 달성했으며, Claude Haiku 98.7%, GPT-5 nano 96.0% 대비 요청당 비용은 $3/M으로 각각 $378 및 $24 대비 매우 저렴했습니다
스마트 홈(함수 호출): Qwen3-0.6B는 98.7% 점수를 기록했으며, Gemini Flash의 92.0%를 능가했습니다
HotpotQA: 증류 모델은 92.0% 점수를 기록했으며, Haiku의 98.0% 대비 - 세계 지식을 활용한 자유형 추론 작업은 여전히 최첨단 모델의 영역입니다
분류 작업(Banking77, E-commerce, TREC): 증류 모델은 최고 최첨단 옵션 대비 0-1.5% 포인트 차이를 보였습니다

추론 성능

모델은 단일 H100에서 vLLM을 통해 서빙되었으며, Text2SQL 4B 모델 성능은 다음과 같습니다:

지속적인 222 RPS
p50: 390ms, p95: 640ms, p99: 870ms
7.6 GiB VRAM (BF16, 양자화 없음)
FP8은 간단한 실험에서 정확도 손실 없이 처리량 +15%, 메모리 -44%를 제공했습니다

방법론

모든 모델에 대해 동일한 테스트 세트, 동일한 프롬프트, 동일한 평가 기준 적용
최첨단 모델: 데이터셋당 3회 실행(평균 ± 표준편차 보고), 증류 모델: temp=0
평가: 분류 작업은 정확 일치, 함수 호출은 tool_call_equivalence(기본 매개변수 정규화를 통한 JSON 비교), 생성 작업은 Claude Sonnet 4.6을 LLM-as-a-judge로 활용
비용: 최첨단 = 측정된 API 토큰 사용량 × 공개 가격(2026년 2월). 증류 = H100 $2.40/시간 ÷ 측정된 지속 RPS

실용적 권장사항

증류 모델 사용: 구조화된 작업, 명확한 스키마, 높은 처리량, 데이터 주권 요구사항이 있는 경우
최첨단 API 사용: 광범위한 세계 지식, 자유형 생성, 낮은 처리량이 필요한 경우
최적 설정: 두 가지를 라우팅하여 활용

사용 가능한 리소스

모든 코드, 모델, 데이터, 평가 스크립트는 오픈 소스로 제공됩니다: https://github.com/distil-labs/inference-efficiency-benchmarks/

차트 및 데이터셋별 상세 분석이 포함된 전체 블로그 포스트: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay

📖 전체 출처 읽기: r/LocalLLaMA

벤치마크 결과, 증류된 모델이 구조화된 작업에서 최첨단 LLM과 동등한 성능을 10배 낮은 비용으로 달성하는 것으로 나타났습니다.

벤치마크 결과: 증류 모델 vs 최첨단 모델

주요 성능 발견 사항

추론 성능

방법론

실용적 권장사항

사용 가능한 리소스

👀 See Also

클로드 우화 5: 프로덕션 릴리즈 오류 20배 과소집계 — 2.3.3절 참조

Anthropic의 새로운 Claude 구독 크레딧: 에이전트 SDK와 claude -p가 6월 15일부터 별도의 한도 풀을 얻습니다

개발자가 Cursor Composer 2와 Kimi 2.6에서 Qwen3.6:35b-a3b로 엔터프라이즈 워크로드 전환

국방부, 앤트로픽 사태 이후 단일 AI 공급업체 금지... AWS, 구글, 마이크로소프트, 엔비디아, 오픈AI, 오라클, 스페이스X와 계약 체결