Qwen 3 8B는 어려운 과제에 대한 블라인드 동료 평가에서 더 큰 모델들을 능가합니다.

✍️ OpenClawRadar📅 게시일: March 17, 2026🔗 Source
Qwen 3 8B는 어려운 과제에 대한 블라인드 동료 평가에서 더 큰 모델들을 능가합니다.
Ad

평가 결과

Multivac이라는 블라인드 동료 평가 시스템이 10개의 소규모 언어 모델을 대상으로 13개의 어려운 첨단 수준 질문을 테스트했습니다. GPT-5.4와 Claude Opus 4.6에도 동일한 난이도가 적용되었습니다. 모델들은 어떤 응답이 어떤 모델에서 나온 것인지 알지 못했으며, 순위는 동료 합의를 통해 계산되었습니다.

주요 발견

Qwen 3 8B(8B 파라미터)는 다음과 같은 성과를 달성했습니다:

  • 13개 평가 중 6개에서 1위
  • 13개 과제 중 12개에서 상위 3위 안에 듦
  • 평균 점수 9.40
  • 최악의 성적: 5위

이 성능은 파라미터 수가 훨씬 더 많은 모델들을 능가했으며, 다음을 포함합니다:

  • Gemma 3 27B(27B 파라미터): 3승, 11회 상위 3위, 평균 9.33
  • Kimi K2.5(32B/1T MoE): 3승, 5회 상위 3위, 평균 8.78
  • Qwen 3 32B(32B 파라미터): 2승, 5회 상위 3위, 평균 8.40

과제별 성능

코드 과제에서 Qwen 3 8B는 다음과 같은 순위를 기록했습니다:

  • Go 동시성 디버깅 1위(9.65)
  • 분산 락 분석 1위(9.33)
  • SQL 최적화 공동 1위(9.66)

추론 과제에서는 다음과 같은 순위를 기록했습니다:

  • 심슨의 역설 1위(9.51)
  • 투자 결정 이론 1위(9.63)
  • 베이지안 진단 2위(9.53)
Ad

주목할 만한 관찰

Qwen 3 32B는 분산 락 디버깅 과제(EVAL-20260315-043330)에서 상당한 성능 하락을 보였으며, 10점 만점에 1.00점을 기록했습니다. 다른 모든 모델은 5.5점 이상을 받았습니다. 8B 모델은 동일한 과제에서 9.33점을 기록했습니다. 원인은 명확하지 않지만 OpenRouter 라우팅, 양자화 아티팩트 또는 실제 실패 모드와 관련이 있을 수 있습니다.

기술적으로 32B 활성/1T MoE 모델인 Kimi K2.5는 502 디버깅 과제(9.57), 애로우의 투표 정리(9.18), 생존자 편향(9.63)을 포함한 3개 평가에서 우승했습니다.

Llama 3.1 8B는 13개 평가 중 10개에서 최하위 또는 차하위를 기록하며 평균 점수 7.51을 보였습니다. 이는 동일한 파라미터 수를 가진 Qwen 3 8B(9.40)와 비교했을 때 상당한 격차를 보여줍니다.

방법론 참고사항

이 평가는 블라인드 동료 시스템을 사용했으며, 10개 모델이 동일한 질문에 응답한 후 각 모델이 10개 응답을 모두 평가합니다(평가당 총 100개 판정, 자기 판정 제외). 저자는 실제 한계를 지적합니다: AI가 AI를 판단하는 것은 순환성 문제가 있으며, 점수는 절대적 진실보다는 동료 합의를 측정합니다. 상관관계를 측정하기 위한 인간 기준 연구가 진행 중입니다.

📖 전체 출처 읽기: r/LocalLLaMA

Ad

👀 See Also

Hivemoot Colony: GitHub에서 AI 에이전트를 위한 오픈소스 실험
News

Hivemoot Colony: GitHub에서 AI 에이전트를 위한 오픈소스 실험

Hivemoot Colony는 GitHub 저장소에서 AI 에이전트들이 협력적으로 의사 결정을 내리는 오픈소스 프로젝트입니다. 에이전트들은 PR을 열 뿐만 아니라 프로젝트 방향을 자율적으로 형성합니다.

OpenClawRadar
메타, AI 훈련을 위해 직원의 마우스 움직임과 키 입력을 수집할 예정
News

메타, AI 훈련을 위해 직원의 마우스 움직임과 키 입력을 수집할 예정

로이터 보도에 따르면, 메타는 AI 학습 데이터를 위해 직원의 마우스 움직임과 키 입력을 포착하기 시작할 계획입니다. 이 기사는 해커 뉴스에서 33점과 7개의 댓글을 얻으며 논의를 불러일으켰습니다.

OpenClawRadar
병원 CEO, "AI가 방사선 전문의를 대체할 준비가 됐다"고 주장
News

병원 CEO, "AI가 방사선 전문의를 대체할 준비가 됐다"고 주장

미국 최대 공립 병원 시스템의 CEO가 방사선 전문의를 AI로 대체할 준비가 되어 있다고 말했습니다. 이는 Radiology Business 기사에 따르며, Hacker News에서 83개의 댓글로 상당한 논의를 불러일으켰습니다.

OpenClawRadar
애플의 AI 전략과 지능의 상품화
News

애플의 AI 전략과 지능의 상품화

이 글은 지능이 상품화됨에 따라 애플의 보수적인 AI 접근 방식이 유리할 수 있다고 주장합니다. Gemma4와 같은 모델이 휴대폰에서 실행되면서 MMLU Pro에서 85.2%를 달성하고, OpenAI의 Sora는 매일 210만 달러의 수익에 대비해 1500만 달러의 비용이 발생하고 있습니다.

OpenClawRadar