Результаты слепого оценивания Gemma 4 и Qwen 3.5 с Claude Opus в роли судьи

✍️ OpenClawRadar📅 Опубликовано: 15 апреля 2026 г.🔗 Source

Пользователь Reddit провёл трёхстороннее прямое сравнение моделей Gemma 4 31B, Gemma 4 26B-A4B и Qwen 3.5 27B, используя Claude Opus 4.6 в качестве оценивающего судьи.

Настройка оценивания

Тест использовал 30 вопросов по пяти категориям: код, логическое мышление, анализ, коммуникация и мета-соответствие (по 6 вопросов на категорию). Все модели отвечали на одни и те же вопросы вслепую, без различий в системных промптах и с одинаковыми настройками температуры. Claude Opus 4.6 оценивал каждый ответ независимо по шкале от 0 до 10, используя структурированную рубрику, с абсолютной оценкой за каждый ответ, а не попарным сравнением. Для обеспечения согласованности использовался один судья (Opus 4.6), хотя это создаёт риск позиционного смещения. Общая стоимость составила $4,50.

Результаты

Количество побед (наивысший балл за вопрос):

Qwen 3.5 27B: 14 побед (46,7%)
Gemma 4 31B: 12 побед (40,0%)
Gemma 4 26B-A4B: 4 победы (13,3%)

Средние баллы:

Gemma 4 31B: 8,82 (30 оценок)
Gemma 4 26B-A4B: 8,82 (28 оценок)
Qwen 3.5 27B: 8,17 (30 оценок)

Qwen выиграл больше матчей, но имел более низкий средний балл из-за трёх оценок 0,0 по вопросам CODE-001, REASON-004 и ANALYSIS-017, которые, по-видимому, были связаны с ошибками формата или отказами отвечать, а не с действительно плохими ответами. Без этих трёх оценок средний балл Qwen подскакивает примерно до 9,08, что было бы наивысшим показателем среди трёх моделей.

Разбивка по категориям

Код: Ничья между Gemma 4 31B и Qwen (по 3 победы у каждой)
Логическое мышление: Qwen доминировал (5 из 6 побед)
Анализ: Qwen доминировал (4 из 6 побед)
Коммуникация: Gemma 4 31B доминировал (5 из 6 побед)
Мета-соответствие: Равное распределение между тремя моделями (2-2-2 победы)

Наблюдения

Gemma 4 26B-A4B (вариант MoE) полностью выдал ошибку на 2 вопроса. Когда она работала, её баллы почти точно совпадали с плотной моделью 31B, имея такое же среднее значение 8,82.
У Gemma 4 31B были абсурдно долгие времена ответа, включая несколько генераций по 5 минут, которые, по-видимому, включали интенсивную внутреннюю цепочку рассуждений, но это не коррелировало с более высокими баллами.
Qwen 3.5 27B генерирует в среднем в 3-5 раз больше токенов на ответ, создавая «налог на многословие», хотя судья, казалось, не наказывал и не поощрял это последовательно.

Методологические оговорки

30 вопросов — это небольшая выборка, не позволяющая делать заявления о статистической значимости
Один судья (Opus 4.6) означает, что любое систематическое смещение влияет на каждый балл
Использование LLM в качестве судьи имеет известные проблемы: смещение в пользу многословия, предпочтение собственного стиля, позиционное смещение
Вопросы были оригинальными, а не из стандартных тестов, отражая предвзятость оценщика

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Новости

Клод Безопасность публичная бета: сканирует кодовую базу, проверяет собственные выводы, предлагает исправления

Anthropic запустила Claude Security в публичной бета-версии для корпоративных клиентов. Инструмент анализирует код как исследователь безопасности, оспаривает собственные находки через adversarial-самопроверку и предлагает конкретные исправления.

1 мая 2026 г., 20:17 UTC

OpenClawRadar

Новости

Исследование выявило культурные предубеждения языковых моделей в ответах на простые медицинские запросы.

Поведенческое исследование протестировало модели Claude 3.5 Sonnet, GPT-4o и Grok-2 с запросом 'У меня болит голова. Что мне делать?'. Grok-2 последовательно рекомендовал индийские безрецептурные бренды, такие как Dolo-650 и Crocin, в то время как GPT-4o упоминал Tylenol/Advil, что выявило предвзятость обучающих данных.

14 мар. 2026 г., 11:45 UTC

OpenClawRadar

Новости

AI-агенты делают ставки на чемпионат мира: почему стратегия «оставить открытыми несколько исходов» выигрывает

Эксперимент с более чем 40 AI-агентами, размещавшими реальные ставки на Polymarket, показывает, что прибыльные агенты поддерживают более одного исхода за матч. Разница: вера против действия.

7 июл. 2026 г., 00:20 UTC

OpenClawRadar

Новости

Изучение нового чат-слоя, созданного для ИИ-агентов: требуется обратная связь от сообщества!

В мире ИИ и автоматизации появилось захватывающее новшество с введением нового слоя чата для ИИ-агентов. Создатели приглашают пользователей сообщества OpenClaw поделиться своими отзывами. Узнайте о потенциале этого инновационного инструмента.

10 февр. 2026 г., 01:45 UTC

OpenClawRadar