Gemma 4 vs Qwen 3.5 블라인드 평가: Claude Opus 심사 결과

레딧 사용자가 Claude Opus 4.6을 채점 심사위원으로 사용해 Gemma 4 31B, Gemma 4 26B-A4B, Qwen 3.5 27B 모델에 대한 3자간 대결 평가를 진행했습니다.

평가 설정

테스트는 코드, 추론, 분석, 의사소통, 메타정렬(각 카테고리당 6개 질문)의 다섯 가지 범주에서 총 30개 질문을 사용했습니다. 모든 모델은 동일한 질문에 대해 시스템 프롬프트 차이 없이 동일한 온도 설정으로 블라인드 방식으로 답변했습니다. Claude Opus 4.6은 각 응답을 0-10점 척도로 구조화된 채점 기준을 사용해 독립적으로 평가했으며, 쌍별 비교보다는 응답별 절대 점수를 매겼습니다. 평가는 일관성을 우선시하기 위해 단일 심사위원(Opus 4.6)을 사용했으나, 이는 위치 편향 위험을 초래합니다. 총 비용은 $4.50이었습니다.

결과

승리 횟수(질문당 최고 점수):

Qwen 3.5 27B: 14승 (46.7%)
Gemma 4 31B: 12승 (40.0%)
Gemma 4 26B-A4B: 4승 (13.3%)

평균 점수:

Gemma 4 31B: 8.82 (30회 평가)
Gemma 4 26B-A4B: 8.82 (28회 평가)
Qwen 3.5 27B: 8.17 (30회 평가)

Qwen은 더 많은 대결에서 승리했지만, CODE-001, REASON-004, ANALYSIS-017에서 세 번의 0.0점으로 인해 평균 점수가 더 낮았습니다. 이 점수들은 형식 오류나 거부로 보이며, 진정으로 형편없는 답변이 아니었습니다. 이 세 점수를 제외하면 Qwen의 평균은 약 9.08로 올라가 세 모델 중 가장 높은 점수가 됩니다.

범주별 분석

코드: Gemma 4 31B와 Qwen이 동률(각 3승)
추론: Qwen이 압도적 우위(6승 중 5승)
분석: Qwen이 압도적 우위(6승 중 4승)
의사소통: Gemma 4 31B가 압도적 우위(6승 중 5승)
메타정렬: 3자 분할(2-2-2 승리)

관찰 사항

Gemma 4 26B-A4B(MoE 변형)는 2개 질문에서 완전히 오류가 발생했습니다. 작동할 때는 점수가 조밀한 31B와 거의 정확히 일치하며 동일한 8.82 평균을 보였습니다.
Gemma 4 31B는 매우 긴 응답 시간을 보였으며, 무거운 내부 사고 과정을 포함한 것으로 보이는 여러 번의 5분 생성이 있었지만, 이는 더 높은 점수와 상관관계가 없었습니다.
Qwen 3.5 27B는 평균적으로 응답당 3-5배 더 많은 토큰을 생성하여 장황함에 대한 부담을 만들었지만, 심사위원은 이를 일관되게 감점하거나 가점하지 않는 것으로 보였습니다.