미세 조정된 Qwen3 소형 모델이 특정 작업에서 더 낮은 비용으로 최첨단 LLM을 능가합니다

✍️ OpenClawRadar📅 게시일: March 9, 2026🔗 Source
미세 조정된 Qwen3 소형 모델이 특정 작업에서 더 낮은 비용으로 최첨단 LLM을 능가합니다
Ad

소형 정제 Qwen3 모델과 최첨단 API 모델을 체계적으로 비교한 결과, 미세 조정된 소형 언어 모델이 특정 구조화된 작업에서 더 크고 비싼 모델보다 뛰어난 성능을 보일 수 있음이 확인되었습니다.

벤치마크 결과

이 연구는 Qwen3 모델(0.6B~8B 파라미터)을 GPT-5 nano/mini/5.2, Gemini 2.5 Flash Lite/Flash, Claude Haiku 4.5/Sonnet 4.6/Opus 4.6, Grok 4.1 Fast/Grok 4를 포함한 최첨단 API와 9개 데이터셋에서 비교했습니다. 모든 정제 모델은 오픈 웨이트 교사 모델만 사용하여 최소 50개 예시로 훈련되었습니다. 추론은 단일 H100에서 vLLM으로 실행되었습니다.

주요 성능 결과

  • 스마트 홈 함수 호출: Qwen3-0.6B는 98.7% 정확도로 Gemini Flash의 92.0%를 능가
  • Text2SQL: 정제된 Qwen3-4B는 98.0%로 Claude Haiku의 98.7% 및 GPT-5 nano의 96.0%와 비교 가능
  • 비용 비교: Text2SQL 100만 요청당 비용: Qwen3-4B ~$3 대 Claude Haiku $378 및 GPT-5 nano $24
  • 분류 작업: 정제 모델은 Banking77, E-commerce, TREC 데이터셋에서 최고의 최첨단 옵션 대비 0~1.5% 포인트 내 성능
  • 최첨단 모델 우위: HotpotQA(자유형 추론 + 세계 지식) — 92.0% 대 Haiku의 98.0%

성능 지표

H100에서 Qwen3-4B의 Text2SQL 성능:

  • 222 RPS 지속 처리량
  • p50: 390ms | p95: 640ms | p99: 870ms
  • 7.6 GiB VRAM (BF16, 양자화 없음)
  • FP8 사용 시 처리량 +15% 증가, VRAM -44% 감소, 간단한 실험에서 정확도 손실 없음
Ad

방법론

  • 모든 모델에 동일한 테스트 세트, 프롬프트, 평가 기준 적용
  • 최첨단 모델: 데이터셋당 3회 실행(평균 ± 표준편차 보고), 정제 모델: 온도=0
  • 평가: 분류 작업은 정확 일치, 함수 호출은 tool_call_equivalence(기본 매개변수 정규화와 JSON 비교), 생성 작업은 Claude Sonnet 4.6을 LLM-판사로 사용
  • 비용 계산: 최첨단 = 측정된 토큰 사용량 × 공개 가격(2026년 2월); 정제 = H100 $2.40/시간 ÷ 지속 RPS

실용적 권장사항

  • 정제 모델 사용 시기: 구조화된 작업, 명확한 스키마, 높은 처리량, 데이터 주권 요구사항이 있을 때
  • 최첨단 API 사용 시기: 광범위한 세계 지식, 자유형 생성이 필요하거나 처리량이 낮아 비용이 중요하지 않을 때
  • 하이브리드 접근법: 작업 요구사항에 따라 두 가지 모델 간 라우팅

가용성

모든 코드, 모델, 데이터, 평가 스크립트는 GitHub에서 오픈 소스로 제공됩니다: https://github.com/distil-labs/inference-efficiency-benchmarks/

차트를 포함한 전체 분석은 블로그에서 확인 가능: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay

📖 전체 출처 읽기: r/LocalLLaMA

Ad

👀 See Also