Qwen 3 8B, 6개 평가 1위: 파라미터 4배 큰 모델 능가

평가 결과

Multivac이라는 블라인드 동료 평가 시스템이 10개의 소규모 언어 모델을 대상으로 13개의 어려운 첨단 수준 질문을 테스트했습니다. GPT-5.4와 Claude Opus 4.6에도 동일한 난이도가 적용되었습니다. 모델들은 어떤 응답이 어떤 모델에서 나온 것인지 알지 못했으며, 순위는 동료 합의를 통해 계산되었습니다.

주요 발견

Qwen 3 8B(8B 파라미터)는 다음과 같은 성과를 달성했습니다:

13개 평가 중 6개에서 1위
13개 과제 중 12개에서 상위 3위 안에 듦
평균 점수 9.40
최악의 성적: 5위

이 성능은 파라미터 수가 훨씬 더 많은 모델들을 능가했으며, 다음을 포함합니다:

Gemma 3 27B(27B 파라미터): 3승, 11회 상위 3위, 평균 9.33
Kimi K2.5(32B/1T MoE): 3승, 5회 상위 3위, 평균 8.78
Qwen 3 32B(32B 파라미터): 2승, 5회 상위 3위, 평균 8.40

과제별 성능

코드 과제에서 Qwen 3 8B는 다음과 같은 순위를 기록했습니다:

Go 동시성 디버깅 1위(9.65)
분산 락 분석 1위(9.33)
SQL 최적화 공동 1위(9.66)

추론 과제에서는 다음과 같은 순위를 기록했습니다:

심슨의 역설 1위(9.51)
투자 결정 이론 1위(9.63)
베이지안 진단 2위(9.53)

주목할 만한 관찰

Qwen 3 32B는 분산 락 디버깅 과제(EVAL-20260315-043330)에서 상당한 성능 하락을 보였으며, 10점 만점에 1.00점을 기록했습니다. 다른 모든 모델은 5.5점 이상을 받았습니다. 8B 모델은 동일한 과제에서 9.33점을 기록했습니다. 원인은 명확하지 않지만 OpenRouter 라우팅, 양자화 아티팩트 또는 실제 실패 모드와 관련이 있을 수 있습니다.

기술적으로 32B 활성/1T MoE 모델인 Kimi K2.5는 502 디버깅 과제(9.57), 애로우의 투표 정리(9.18), 생존자 편향(9.63)을 포함한 3개 평가에서 우승했습니다.

Llama 3.1 8B는 13개 평가 중 10개에서 최하위 또는 차하위를 기록하며 평균 점수 7.51을 보였습니다. 이는 동일한 파라미터 수를 가진 Qwen 3 8B(9.40)와 비교했을 때 상당한 격차를 보여줍니다.

방법론 참고사항

이 평가는 블라인드 동료 시스템을 사용했으며, 10개 모델이 동일한 질문에 응답한 후 각 모델이 10개 응답을 모두 평가합니다(평가당 총 100개 판정, 자기 판정 제외). 저자는 실제 한계를 지적합니다: AI가 AI를 판단하는 것은 순환성 문제가 있으며, 점수는 절대적 진실보다는 동료 합의를 측정합니다. 상관관계를 측정하기 위한 인간 기준 연구가 진행 중입니다.

📖 전체 출처 읽기: r/LocalLLaMA