미세 조정된 Qwen3 소형 모델이 특정 작업에서 더 낮은 비용으로 최첨단 LLM을 능가합니다

소형 정제 Qwen3 모델과 최첨단 API 모델을 체계적으로 비교한 결과, 미세 조정된 소형 언어 모델이 특정 구조화된 작업에서 더 크고 비싼 모델보다 뛰어난 성능을 보일 수 있음이 확인되었습니다.
벤치마크 결과
이 연구는 Qwen3 모델(0.6B~8B 파라미터)을 GPT-5 nano/mini/5.2, Gemini 2.5 Flash Lite/Flash, Claude Haiku 4.5/Sonnet 4.6/Opus 4.6, Grok 4.1 Fast/Grok 4를 포함한 최첨단 API와 9개 데이터셋에서 비교했습니다. 모든 정제 모델은 오픈 웨이트 교사 모델만 사용하여 최소 50개 예시로 훈련되었습니다. 추론은 단일 H100에서 vLLM으로 실행되었습니다.
주요 성능 결과
- 스마트 홈 함수 호출: Qwen3-0.6B는 98.7% 정확도로 Gemini Flash의 92.0%를 능가
- Text2SQL: 정제된 Qwen3-4B는 98.0%로 Claude Haiku의 98.7% 및 GPT-5 nano의 96.0%와 비교 가능
- 비용 비교: Text2SQL 100만 요청당 비용: Qwen3-4B ~$3 대 Claude Haiku $378 및 GPT-5 nano $24
- 분류 작업: 정제 모델은 Banking77, E-commerce, TREC 데이터셋에서 최고의 최첨단 옵션 대비 0~1.5% 포인트 내 성능
- 최첨단 모델 우위: HotpotQA(자유형 추론 + 세계 지식) — 92.0% 대 Haiku의 98.0%
성능 지표
H100에서 Qwen3-4B의 Text2SQL 성능:
- 222 RPS 지속 처리량
- p50: 390ms | p95: 640ms | p99: 870ms
- 7.6 GiB VRAM (BF16, 양자화 없음)
- FP8 사용 시 처리량 +15% 증가, VRAM -44% 감소, 간단한 실험에서 정확도 손실 없음
방법론
- 모든 모델에 동일한 테스트 세트, 프롬프트, 평가 기준 적용
- 최첨단 모델: 데이터셋당 3회 실행(평균 ± 표준편차 보고), 정제 모델: 온도=0
- 평가: 분류 작업은 정확 일치, 함수 호출은 tool_call_equivalence(기본 매개변수 정규화와 JSON 비교), 생성 작업은 Claude Sonnet 4.6을 LLM-판사로 사용
- 비용 계산: 최첨단 = 측정된 토큰 사용량 × 공개 가격(2026년 2월); 정제 = H100 $2.40/시간 ÷ 지속 RPS
실용적 권장사항
- 정제 모델 사용 시기: 구조화된 작업, 명확한 스키마, 높은 처리량, 데이터 주권 요구사항이 있을 때
- 최첨단 API 사용 시기: 광범위한 세계 지식, 자유형 생성이 필요하거나 처리량이 낮아 비용이 중요하지 않을 때
- 하이브리드 접근법: 작업 요구사항에 따라 두 가지 모델 간 라우팅
가용성
모든 코드, 모델, 데이터, 평가 스크립트는 GitHub에서 오픈 소스로 제공됩니다: https://github.com/distil-labs/inference-efficiency-benchmarks/
차트를 포함한 전체 분석은 블로그에서 확인 가능: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

AI 에이전트가 인간 직원과 함께 물리적 소매점 운영
안돈 랩스는 샌프란시스코에서 3년간 소매점 임대 관리를 위해 루나라는 AI를 배치했습니다. 루나는 인간 직원을 고용하고 계약자를 관리하며 안돈 마켓의 모든 운영 결정을 내렸습니다.

AIME 2026 결과: 오픈 및 클로즈드 모델 모두 90% 이상 점수 획득
AI 모델이 AIME 2026에서 놀라운 90% 이상의 점수를 달성했으며, DeepSeek V3.2가 전체 테스트를 단 bash.09에 실행합니다.

Nvidia, 260억 달러 투입해 오픈 가중치 AI 모델에 전념하며 '네모트론 3 슈퍼' 공개
2025년 재무 제출 자료에 따르면 엔비디아는 5년 동안 260억 달러를 투자해 오픈 소스 AI 모델을 구축할 예정입니다. 또한 회사는 벤치마크에서 GPT-OSS를 능가하고 OpenClaw 제어를 위한 PinchBench에서 1위를 차지한 1280억 파라미터 모델인 Nemotron 3 Super를 공개했습니다.

NVIDIA가 OpenShell 보안 기능을 갖춘 NemoClaw를 발표합니다
NVIDIA가 GTC에서 NemoClaw를 발표했으며, OpenClaw를 기반으로 OpenShell을 통해 AI 에이전트에 정책 기반의 프라이버시 및 보안 가드레일을 적용하여 엔터프라이즈급 보안을 추가했습니다.