벤치마크 결과, 증류된 모델이 구조화된 작업에서 최첨단 LLM과 동등한 성능을 10배 낮은 비용으로 달성하는 것으로 나타났습니다.

벤치마크 결과: 증류 모델 vs 최첨단 모델
연구자들은 분류, 함수 호출, 질의응답, 오픈북 질의응답 작업을 포함하는 9개 데이터셋에서 소형 증류 모델과 최첨단 LLM을 포괄적으로 비교했습니다. 모든 증류 모델은 Qwen3 패밀리(0.6B~8B)로, 최첨단 API 출력 없이 오픈 가중치 교사 모델을 사용하여 최소 50개의 예시만으로 학습되었습니다.
주요 성능 발견 사항
- 증류 모델은 9개 작업 중 6개에서 최고 중간 수준 최첨단 모델(<$1/MTok 입력)과 동등하거나 더 나은 성능을 보이며, 7번째 작업에서는 사실상 동률을 기록했습니다
- Text2SQL: Qwen3-4B 증류 모델은 98.0% 정확도를 달성했으며, Claude Haiku 98.7%, GPT-5 nano 96.0% 대비 요청당 비용은 $3/M으로 각각 $378 및 $24 대비 매우 저렴했습니다
- 스마트 홈(함수 호출): Qwen3-0.6B는 98.7% 점수를 기록했으며, Gemini Flash의 92.0%를 능가했습니다
- HotpotQA: 증류 모델은 92.0% 점수를 기록했으며, Haiku의 98.0% 대비 - 세계 지식을 활용한 자유형 추론 작업은 여전히 최첨단 모델의 영역입니다
- 분류 작업(Banking77, E-commerce, TREC): 증류 모델은 최고 최첨단 옵션 대비 0-1.5% 포인트 차이를 보였습니다
추론 성능
모델은 단일 H100에서 vLLM을 통해 서빙되었으며, Text2SQL 4B 모델 성능은 다음과 같습니다:
- 지속적인 222 RPS
- p50: 390ms, p95: 640ms, p99: 870ms
- 7.6 GiB VRAM (BF16, 양자화 없음)
- FP8은 간단한 실험에서 정확도 손실 없이 처리량 +15%, 메모리 -44%를 제공했습니다
방법론
- 모든 모델에 대해 동일한 테스트 세트, 동일한 프롬프트, 동일한 평가 기준 적용
- 최첨단 모델: 데이터셋당 3회 실행(평균 ± 표준편차 보고), 증류 모델: temp=0
- 평가: 분류 작업은 정확 일치, 함수 호출은 tool_call_equivalence(기본 매개변수 정규화를 통한 JSON 비교), 생성 작업은 Claude Sonnet 4.6을 LLM-as-a-judge로 활용
- 비용: 최첨단 = 측정된 API 토큰 사용량 × 공개 가격(2026년 2월). 증류 = H100 $2.40/시간 ÷ 측정된 지속 RPS
실용적 권장사항
- 증류 모델 사용: 구조화된 작업, 명확한 스키마, 높은 처리량, 데이터 주권 요구사항이 있는 경우
- 최첨단 API 사용: 광범위한 세계 지식, 자유형 생성, 낮은 처리량이 필요한 경우
- 최적 설정: 두 가지를 라우팅하여 활용
사용 가능한 리소스
모든 코드, 모델, 데이터, 평가 스크립트는 오픈 소스로 제공됩니다: https://github.com/distil-labs/inference-efficiency-benchmarks/
차트 및 데이터셋별 상세 분석이 포함된 전체 블로그 포스트: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

Anthropic, 3억 달러 이상에 Stainless 인수 — 지배적인 MCP 서버 생성기 확보
Anthropic이 SDK 생성기인 Stainless를 3억 달러 이상에 인수했다. Stainless는 대부분의 프로덕션 MCP 서버를 OpenAPI 사양에서 생성한다. 호스팅 제품은 종료되며, 월요일부터 신규 가입이 중단되었다.

OpenClaw의 오픈 소스 아키텍처가 중요한 이유
없음
Claude 코드 시스템 프롬프트 v2.1.139: AWS 문서상의 Claude 플랫폼, 요약 보안, PowerShell 도구
CC 2.1.139 (+2,248토큰): SigV4 인증을 통한 AWS의 Claude Platform 참조 문서, 보안을 유지하는 대화 요약, PowerShell Unix 명령어 대응표, 여러 스킬/프롬프트 개선 사항이 추가되었습니다.

연방 기관에 Anthropic AI 기술 사용 중단 명령
도널드 트럼프 대통령은 미국 정부 기관들이 AI 기업 Anthropic의 기술 사용을 즉각 중단하도록 명령했습니다. 이 명령은 Anthropic이 국방부로부터 자사의 AI 모델 사용 제한에 관한 압력을 받고 있는 상황에서 나왔습니다.