Qwen3 8B 모델, 함수 호출 및 Text2SQL에서 GPT-5 능가

소형 정제 Qwen3 모델과 최첨단 API 모델을 체계적으로 비교한 결과, 미세 조정된 소형 언어 모델이 특정 구조화된 작업에서 더 크고 비싼 모델보다 뛰어난 성능을 보일 수 있음이 확인되었습니다.

벤치마크 결과

이 연구는 Qwen3 모델(0.6B~8B 파라미터)을 GPT-5 nano/mini/5.2, Gemini 2.5 Flash Lite/Flash, Claude Haiku 4.5/Sonnet 4.6/Opus 4.6, Grok 4.1 Fast/Grok 4를 포함한 최첨단 API와 9개 데이터셋에서 비교했습니다. 모든 정제 모델은 오픈 웨이트 교사 모델만 사용하여 최소 50개 예시로 훈련되었습니다. 추론은 단일 H100에서 vLLM으로 실행되었습니다.

주요 성능 결과

스마트 홈 함수 호출: Qwen3-0.6B는 98.7% 정확도로 Gemini Flash의 92.0%를 능가
Text2SQL: 정제된 Qwen3-4B는 98.0%로 Claude Haiku의 98.7% 및 GPT-5 nano의 96.0%와 비교 가능
비용 비교: Text2SQL 100만 요청당 비용: Qwen3-4B ~$3 대 Claude Haiku $378 및 GPT-5 nano $24
분류 작업: 정제 모델은 Banking77, E-commerce, TREC 데이터셋에서 최고의 최첨단 옵션 대비 0~1.5% 포인트 내 성능
최첨단 모델 우위: HotpotQA(자유형 추론 + 세계 지식) — 92.0% 대 Haiku의 98.0%

성능 지표

H100에서 Qwen3-4B의 Text2SQL 성능:

222 RPS 지속 처리량
p50: 390ms | p95: 640ms | p99: 870ms
7.6 GiB VRAM (BF16, 양자화 없음)
FP8 사용 시 처리량 +15% 증가, VRAM -44% 감소, 간단한 실험에서 정확도 손실 없음

방법론

모든 모델에 동일한 테스트 세트, 프롬프트, 평가 기준 적용
최첨단 모델: 데이터셋당 3회 실행(평균 ± 표준편차 보고), 정제 모델: 온도=0
평가: 분류 작업은 정확 일치, 함수 호출은 tool_call_equivalence(기본 매개변수 정규화와 JSON 비교), 생성 작업은 Claude Sonnet 4.6을 LLM-판사로 사용
비용 계산: 최첨단 = 측정된 토큰 사용량 × 공개 가격(2026년 2월); 정제 = H100 $2.40/시간 ÷ 지속 RPS