Gemma 4 대 Qwen 3.5 블라인드 평가 결과 (Claude Opus 심사위원)

레딧 사용자가 Claude Opus 4.6을 채점 심사위원으로 사용해 Gemma 4 31B, Gemma 4 26B-A4B, Qwen 3.5 27B 모델에 대한 3자간 대결 평가를 진행했습니다.
평가 설정
테스트는 코드, 추론, 분석, 의사소통, 메타정렬(각 카테고리당 6개 질문)의 다섯 가지 범주에서 총 30개 질문을 사용했습니다. 모든 모델은 동일한 질문에 대해 시스템 프롬프트 차이 없이 동일한 온도 설정으로 블라인드 방식으로 답변했습니다. Claude Opus 4.6은 각 응답을 0-10점 척도로 구조화된 채점 기준을 사용해 독립적으로 평가했으며, 쌍별 비교보다는 응답별 절대 점수를 매겼습니다. 평가는 일관성을 우선시하기 위해 단일 심사위원(Opus 4.6)을 사용했으나, 이는 위치 편향 위험을 초래합니다. 총 비용은 $4.50이었습니다.
결과
승리 횟수(질문당 최고 점수):
- Qwen 3.5 27B: 14승 (46.7%)
- Gemma 4 31B: 12승 (40.0%)
- Gemma 4 26B-A4B: 4승 (13.3%)
평균 점수:
- Gemma 4 31B: 8.82 (30회 평가)
- Gemma 4 26B-A4B: 8.82 (28회 평가)
- Qwen 3.5 27B: 8.17 (30회 평가)
Qwen은 더 많은 대결에서 승리했지만, CODE-001, REASON-004, ANALYSIS-017에서 세 번의 0.0점으로 인해 평균 점수가 더 낮았습니다. 이 점수들은 형식 오류나 거부로 보이며, 진정으로 형편없는 답변이 아니었습니다. 이 세 점수를 제외하면 Qwen의 평균은 약 9.08로 올라가 세 모델 중 가장 높은 점수가 됩니다.
범주별 분석
- 코드: Gemma 4 31B와 Qwen이 동률(각 3승)
- 추론: Qwen이 압도적 우위(6승 중 5승)
- 분석: Qwen이 압도적 우위(6승 중 4승)
- 의사소통: Gemma 4 31B가 압도적 우위(6승 중 5승)
- 메타정렬: 3자 분할(2-2-2 승리)
관찰 사항
- Gemma 4 26B-A4B(MoE 변형)는 2개 질문에서 완전히 오류가 발생했습니다. 작동할 때는 점수가 조밀한 31B와 거의 정확히 일치하며 동일한 8.82 평균을 보였습니다.
- Gemma 4 31B는 매우 긴 응답 시간을 보였으며, 무거운 내부 사고 과정을 포함한 것으로 보이는 여러 번의 5분 생성이 있었지만, 이는 더 높은 점수와 상관관계가 없었습니다.
- Qwen 3.5 27B는 평균적으로 응답당 3-5배 더 많은 토큰을 생성하여 장황함에 대한 부담을 만들었지만, 심사위원은 이를 일관되게 감점하거나 가점하지 않는 것으로 보였습니다.
방법론적 주의사항
- 30개 질문은 통계적 유의성을 주장하기에는 작은 표본입니다
- 단일 심사위원(Opus 4.6)은 체계적 편향이 모든 점수에 영향을 미친다는 것을 의미합니다
- LLM 심사위원은 알려진 문제점이 있습니다: 장황함 편향, 자기 선호 편향, 위치 편향
- 질문은 표준 벤치마크에서 가져온 것이 아니라 평가자의 편향을 반영한 독창적인 것입니다
📖 전체 원문 읽기: r/LocalLLaMA
👀 See Also

Claude Code v2.1.101은 팀 온보딩, 엔터프라이즈 TLS 지원을 추가하고 메모리 누수를 수정했습니다.
Claude Code v2.1.101는 팀원 온보딩 가이드 생성을 위한 /team-onboarding 명령어를 도입하고, 기업용 TLS 프록시를 위해 기본적으로 OS CA 인증서 저장소 신뢰를 추가하며, 긴 세션에서의 메모리 누수와 25개 이상의 기타 개선 사항 및 버그 수정을 포함합니다.

Sarvam AI, 인도 훈련 인프라로 30B와 105B 오픈소스 LLM 공개
Sarvam AI는 인도AI 미션 하에 제공된 컴퓨팅 자원을 활용하여 인도에서 처음부터 학습된 두 가지 추론 모델인 Sarvam 30B와 Sarvam 105B를 오픈소스로 공개했습니다. 두 모델 모두 희소 전문가 라우팅을 적용한 Mixture-of-Experts 아키텍처를 사용하며, GPU부터 노트북까지 다양한 하드웨어에서 효율적으로 배포되도록 최적화되었습니다.

Claude Opus 4.6 effort=low 매개변수는 에이전트의 게으른 행동을 유발합니다
Claude Opus 4.6에서 effort=low를 사용할 때, 에이전트는 더 적은 도구 호출을 수행하고, 교차 참조를 덜 철저히 하며, 웹 연구에 관한 시스템 프롬프트의 일부를 무시했습니다. effort=medium으로 전환하면 이러한 문제가 해결되었습니다.

클로드 MAX 플랜에 추가 비용 없이 100만 토큰 컨텍스트 윈도우가 포함됩니다
Claude MAX 플랜이 추가 API 사용 요금 없이 100만 토큰 컨텍스트 윈도우를 포함하도록 자동 업그레이드되었으며, 사용자들은 토큰 사용량이 크게 감소하고 컨텍스트 윈도우 관리 부담이 사라졌다고 보고합니다.