Результаты слепого оценивания Gemma 4 и Qwen 3.5 с Claude Opus в роли судьи

Пользователь Reddit провёл трёхстороннее прямое сравнение моделей Gemma 4 31B, Gemma 4 26B-A4B и Qwen 3.5 27B, используя Claude Opus 4.6 в качестве оценивающего судьи.
Настройка оценивания
Тест использовал 30 вопросов по пяти категориям: код, логическое мышление, анализ, коммуникация и мета-соответствие (по 6 вопросов на категорию). Все модели отвечали на одни и те же вопросы вслепую, без различий в системных промптах и с одинаковыми настройками температуры. Claude Opus 4.6 оценивал каждый ответ независимо по шкале от 0 до 10, используя структурированную рубрику, с абсолютной оценкой за каждый ответ, а не попарным сравнением. Для обеспечения согласованности использовался один судья (Opus 4.6), хотя это создаёт риск позиционного смещения. Общая стоимость составила $4,50.
Результаты
Количество побед (наивысший балл за вопрос):
- Qwen 3.5 27B: 14 побед (46,7%)
- Gemma 4 31B: 12 побед (40,0%)
- Gemma 4 26B-A4B: 4 победы (13,3%)
Средние баллы:
- Gemma 4 31B: 8,82 (30 оценок)
- Gemma 4 26B-A4B: 8,82 (28 оценок)
- Qwen 3.5 27B: 8,17 (30 оценок)
Qwen выиграл больше матчей, но имел более низкий средний балл из-за трёх оценок 0,0 по вопросам CODE-001, REASON-004 и ANALYSIS-017, которые, по-видимому, были связаны с ошибками формата или отказами отвечать, а не с действительно плохими ответами. Без этих трёх оценок средний балл Qwen подскакивает примерно до 9,08, что было бы наивысшим показателем среди трёх моделей.
Разбивка по категориям
- Код: Ничья между Gemma 4 31B и Qwen (по 3 победы у каждой)
- Логическое мышление: Qwen доминировал (5 из 6 побед)
- Анализ: Qwen доминировал (4 из 6 побед)
- Коммуникация: Gemma 4 31B доминировал (5 из 6 побед)
- Мета-соответствие: Равное распределение между тремя моделями (2-2-2 победы)
Наблюдения
- Gemma 4 26B-A4B (вариант MoE) полностью выдал ошибку на 2 вопроса. Когда она работала, её баллы почти точно совпадали с плотной моделью 31B, имея такое же среднее значение 8,82.
- У Gemma 4 31B были абсурдно долгие времена ответа, включая несколько генераций по 5 минут, которые, по-видимому, включали интенсивную внутреннюю цепочку рассуждений, но это не коррелировало с более высокими баллами.
- Qwen 3.5 27B генерирует в среднем в 3-5 раз больше токенов на ответ, создавая «налог на многословие», хотя судья, казалось, не наказывал и не поощрял это последовательно.
Методологические оговорки
- 30 вопросов — это небольшая выборка, не позволяющая делать заявления о статистической значимости
- Один судья (Opus 4.6) означает, что любое систематическое смещение влияет на каждый балл
- Использование LLM в качестве судьи имеет известные проблемы: смещение в пользу многословия, предпочтение собственного стиля, позиционное смещение
- Вопросы были оригинальными, а не из стандартных тестов, отражая предвзятость оценщика
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Anthropic удваивает лимиты скорости Claude Code, подписывает сделку по вычислениям с SpaceX
Лимиты Claude Code на пять часов удвоены для планов Pro/Max/Team/Enterprise, убрано снижение в часы пик, а для моделей Opus повышены лимиты API. SpaceX Colossus 1 добавляет более 300 МВт мощности (220 тыс. GPU NVIDIA) в течение месяца.
Бенчмарк усилий рассуждения Opus 4.7: Средний превосходит Высокий и Максимум в реальных задачах
В 29 задачах из репозитория GraphQL-go-tools Opus 4.7 в Claude Code показывает пик при среднем уровне рассуждений — более высокие настройки ухудшают корректность и увеличивают стоимость без улучшения качества патчей.

Клод Код: Ловушка для обратной связи обходит отказ от конфиденциальности — пользователи сообщают о захвате стенограмм сессий
Claude Code от Anthropic теперь запрашивает разрешение на просмотр расшифровки сессии — нажатие 'n' для отказа выводит 'Спасибо за ваш отзыв', и данные могут использоваться для обучения. Поведение клавиши пропуска неясно.

Бенчмаркинг последних ИИ-моделей: Восхождение экстремальных моделей
Подробное бенчмаркинг 40 новых AI-моделей показывает разделенный рынок с ведущими режимами 'God Mode' и 'Flash Mode'. Модели среднего уровня теперь считаются устаревшими.