Qwen 3 8B превосходит более крупные модели в слепых экспертных оценках сложных задач.

✍️ OpenClawRadar📅 Опубликовано: 17 марта 2026 г.🔗 Source
Qwen 3 8B превосходит более крупные модели в слепых экспертных оценках сложных задач.
Ad

Результаты оценки

Система слепого парного оценивания под названием The Multivac протестировала 10 небольших языковых моделей на 13 сложных вопросах передового уровня. Тот же уровень сложности использовался для GPT-5.4 и Claude Opus 4.6. Модели не знали, какой ответ принадлежит какой модели, а рейтинги вычислялись на основе консенсуса между моделями.

Ключевые выводы

Qwen 3 8B (8 млрд параметров) достиг:

  • 6 побед на первом месте из 13 оценок
  • Попадание в тройку лучших в 12 из 13 задач
  • Средний балл 9.40
  • Худший результат: 5-е место

Эта производительность превзошла модели со значительно большим количеством параметров, включая:

  • Gemma 3 27B (27 млрд параметров): 3 победы, 11 попаданий в тройку лучших, средний балл 9.33
  • Kimi K2.5 (32 млрд/1 трлн MoE): 3 победы, 5 попаданий в тройку лучших, средний балл 8.78
  • Qwen 3 32B (32 млрд параметров): 2 победы, 5 попаданий в тройку лучших, средний балл 8.40

Производительность по конкретным задачам

В задачах по программированию Qwen 3 8B занял:

  • 1-е место по отладке конкурентности Go (9.65)
  • 1-е место по анализу распределённых блокировок (9.33)
  • Разделил 1-е место по оптимизации SQL (9.66)

В задачах на рассуждение он занял:

  • 1-е место по парадоксу Симпсона (9.51)
  • 1-е место по теории инвестиционных решений (9.63)
  • 2-е место по байесовской диагностике (9.53)
Ad

Примечательные наблюдения

Qwen 3 32B показал значительное падение производительности в задаче по отладке распределённых блокировок (EVAL-20260315-043330), набрав всего 1.00 из 10, в то время как все остальные модели набрали выше 5.5. Модель 8B набрала 9.33 на той же задаче. Причина неясна, но может быть связана с маршрутизацией OpenRouter, артефактами квантования или подлинным режимом сбоя.

Kimi K2.5, технически являющаяся моделью 32 млрд активных/1 трлн MoE, выиграла 3 оценки, включая задачу по отладке 502 (9.57), теорему голосования Эрроу (9.18) и ошибку выжившего (9.63).

Llama 3.1 8B заняла последнее или предпоследнее место в 10 из 13 оценок со средним баллом 7.51, демонстрируя огромный разрыв по сравнению с Qwen 3 8B (9.40), несмотря на одинаковое количество параметров.

Примечания по методологии

В оценке использовалась система слепого парного оценивания, где 10 моделей отвечают на один и тот же вопрос, а затем каждая модель оценивает все 10 ответов (всего 100 оценок за каждую оценку, за исключением самооценок). Автор отмечает подлинные ограничения: оценка ИИ другими ИИ имеет проблему цикличности, и баллы измеряют консенсус между моделями, а не абсолютную истину. Разрабатывается базовое исследование с участием людей для измерения корреляции.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Liquid AI выпускает модель LFM2.5-350M для агентных циклов.
Новости

Liquid AI выпускает модель LFM2.5-350M для агентных циклов.

Liquid AI выпустила LFM2.5-350M, модель с 350 миллионами параметров, обученную для надежного извлечения данных и использования инструментов. При квантовании её размер составляет менее 500 МБ, и она превосходит более крупные модели, такие как Qwen3.5-0.8B, в большинстве тестов, будучи при этом быстрее и эффективнее по использованию памяти.

OpenClawRadar
Утечка исходного кода CLI Claude Code раскрывает скрытые функции и внутренние флаги.
Новости

Утечка исходного кода CLI Claude Code раскрывает скрытые функции и внутренние флаги.

Анализ утекшего исходного кода TypeScript для Claude Code CLI выявил 35 флагов функций, активируемых при сборке, включая AI-питомцев BUDDY, постоянную память KAIROS, удалённое планирование ULTRAPLAN и режим координатора. Также обнаружено более 120 недокументированных переменных окружения и 26 внутренних слеш-команд.

OpenClawRadar
Пользователи OpenRouter сообщают о баге с подписью в thinking-блоках Sonnet 4.5
Новости

Пользователи OpenRouter сообщают о баге с подписью в thinking-блоках Sonnet 4.5

Баг, затрагивающий режим extended thinking в Claude Sonnet 4.5 через OpenRouter, вызывает ошибки валидации подписи.

OpenClaw Radar
Сокращение 4 000 сотрудников в Block вызывает опасения по поводу "искусственного отбеливания" (AI-washing).
Новости

Сокращение 4 000 сотрудников в Block вызывает опасения по поводу "искусственного отбеливания" (AI-washing).

Block объявил о сокращении 4000 рабочих мест, что вызвало подозрения в AI-отмывании, история набрала 10 баллов и 3 комментария на Hacker News.

OpenClawRadar