벤치마크 결과, 증류된 모델이 구조화된 작업에서 최첨단 LLM과 동등한 성능을 10배 낮은 비용으로 달성하는 것으로 나타났습니다.

✍️ OpenClawRadar📅 게시일: March 7, 2026🔗 Source
벤치마크 결과, 증류된 모델이 구조화된 작업에서 최첨단 LLM과 동등한 성능을 10배 낮은 비용으로 달성하는 것으로 나타났습니다.
Ad

벤치마크 결과: 증류 모델 vs 최첨단 모델

연구자들은 분류, 함수 호출, 질의응답, 오픈북 질의응답 작업을 포함하는 9개 데이터셋에서 소형 증류 모델과 최첨단 LLM을 포괄적으로 비교했습니다. 모든 증류 모델은 Qwen3 패밀리(0.6B~8B)로, 최첨단 API 출력 없이 오픈 가중치 교사 모델을 사용하여 최소 50개의 예시만으로 학습되었습니다.

주요 성능 발견 사항

  • 증류 모델은 9개 작업 중 6개에서 최고 중간 수준 최첨단 모델(<$1/MTok 입력)과 동등하거나 더 나은 성능을 보이며, 7번째 작업에서는 사실상 동률을 기록했습니다
  • Text2SQL: Qwen3-4B 증류 모델은 98.0% 정확도를 달성했으며, Claude Haiku 98.7%, GPT-5 nano 96.0% 대비 요청당 비용은 $3/M으로 각각 $378 및 $24 대비 매우 저렴했습니다
  • 스마트 홈(함수 호출): Qwen3-0.6B는 98.7% 점수를 기록했으며, Gemini Flash의 92.0%를 능가했습니다
  • HotpotQA: 증류 모델은 92.0% 점수를 기록했으며, Haiku의 98.0% 대비 - 세계 지식을 활용한 자유형 추론 작업은 여전히 최첨단 모델의 영역입니다
  • 분류 작업(Banking77, E-commerce, TREC): 증류 모델은 최고 최첨단 옵션 대비 0-1.5% 포인트 차이를 보였습니다

추론 성능

모델은 단일 H100에서 vLLM을 통해 서빙되었으며, Text2SQL 4B 모델 성능은 다음과 같습니다:

  • 지속적인 222 RPS
  • p50: 390ms, p95: 640ms, p99: 870ms
  • 7.6 GiB VRAM (BF16, 양자화 없음)
  • FP8은 간단한 실험에서 정확도 손실 없이 처리량 +15%, 메모리 -44%를 제공했습니다
Ad

방법론

  • 모든 모델에 대해 동일한 테스트 세트, 동일한 프롬프트, 동일한 평가 기준 적용
  • 최첨단 모델: 데이터셋당 3회 실행(평균 ± 표준편차 보고), 증류 모델: temp=0
  • 평가: 분류 작업은 정확 일치, 함수 호출은 tool_call_equivalence(기본 매개변수 정규화를 통한 JSON 비교), 생성 작업은 Claude Sonnet 4.6을 LLM-as-a-judge로 활용
  • 비용: 최첨단 = 측정된 API 토큰 사용량 × 공개 가격(2026년 2월). 증류 = H100 $2.40/시간 ÷ 측정된 지속 RPS

실용적 권장사항

  • 증류 모델 사용: 구조화된 작업, 명확한 스키마, 높은 처리량, 데이터 주권 요구사항이 있는 경우
  • 최첨단 API 사용: 광범위한 세계 지식, 자유형 생성, 낮은 처리량이 필요한 경우
  • 최적 설정: 두 가지를 라우팅하여 활용

사용 가능한 리소스

모든 코드, 모델, 데이터, 평가 스크립트는 오픈 소스로 제공됩니다: https://github.com/distil-labs/inference-efficiency-benchmarks/

차트 및 데이터셋별 상세 분석이 포함된 전체 블로그 포스트: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay

📖 전체 출처 읽기: r/LocalLLaMA

Ad

👀 See Also