Qwen 3 8B превосходит более крупные модели в слепых экспертных оценках сложных задач.

✍️ OpenClawRadar📅 Опубликовано: 17 марта 2026 г.🔗 Source

Результаты оценки

Система слепого парного оценивания под названием The Multivac протестировала 10 небольших языковых моделей на 13 сложных вопросах передового уровня. Тот же уровень сложности использовался для GPT-5.4 и Claude Opus 4.6. Модели не знали, какой ответ принадлежит какой модели, а рейтинги вычислялись на основе консенсуса между моделями.

Ключевые выводы

Qwen 3 8B (8 млрд параметров) достиг:

6 побед на первом месте из 13 оценок
Попадание в тройку лучших в 12 из 13 задач
Средний балл 9.40
Худший результат: 5-е место

Эта производительность превзошла модели со значительно большим количеством параметров, включая:

Gemma 3 27B (27 млрд параметров): 3 победы, 11 попаданий в тройку лучших, средний балл 9.33
Kimi K2.5 (32 млрд/1 трлн MoE): 3 победы, 5 попаданий в тройку лучших, средний балл 8.78
Qwen 3 32B (32 млрд параметров): 2 победы, 5 попаданий в тройку лучших, средний балл 8.40

Производительность по конкретным задачам

В задачах по программированию Qwen 3 8B занял:

1-е место по отладке конкурентности Go (9.65)
1-е место по анализу распределённых блокировок (9.33)
Разделил 1-е место по оптимизации SQL (9.66)

В задачах на рассуждение он занял:

1-е место по парадоксу Симпсона (9.51)
1-е место по теории инвестиционных решений (9.63)
2-е место по байесовской диагностике (9.53)

Примечательные наблюдения

Qwen 3 32B показал значительное падение производительности в задаче по отладке распределённых блокировок (EVAL-20260315-043330), набрав всего 1.00 из 10, в то время как все остальные модели набрали выше 5.5. Модель 8B набрала 9.33 на той же задаче. Причина неясна, но может быть связана с маршрутизацией OpenRouter, артефактами квантования или подлинным режимом сбоя.

Kimi K2.5, технически являющаяся моделью 32 млрд активных/1 трлн MoE, выиграла 3 оценки, включая задачу по отладке 502 (9.57), теорему голосования Эрроу (9.18) и ошибку выжившего (9.63).

Llama 3.1 8B заняла последнее или предпоследнее место в 10 из 13 оценок со средним баллом 7.51, демонстрируя огромный разрыв по сравнению с Qwen 3 8B (9.40), несмотря на одинаковое количество параметров.

Примечания по методологии

В оценке использовалась система слепого парного оценивания, где 10 моделей отвечают на один и тот же вопрос, а затем каждая модель оценивает все 10 ответов (всего 100 оценок за каждую оценку, за исключением самооценок). Автор отмечает подлинные ограничения: оценка ИИ другими ИИ имеет проблему цикличности, и баллы измеряют консенсус между моделями, а не абсолютную истину. Разрабатывается базовое исследование с участием людей для измерения корреляции.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Новости

调查：Claude Code代理因压缩更改展示未经验证的MEMORY.md内容

Пользователь сообщает, что агенты Claude Code извлекают содержимое из MEMORY.md без повторной проверки в середине задачи, что связано с изменениями в уплотнении в версиях 2.1.139 и 2.1.141. Два усугубляющих фактора: агрессивное сохранение «инструкций пользователя» и ошибка в порогах автокомпактизации.

14 мая 2026 г., 12:15 UTC

OpenClawRadar

Новости

DeepSeek делает постоянную скидку 75% на флагманскую модель ИИ

DeepSeek делает постоянной скидку 75% на свой флагманский ИИ-модель. Снижение цены касается доступа к API и изначально было временной акцией.

25 мая 2026 г., 12:15 UTC

OpenClawRadar

Новости

Qwen3.6-27B помещается в один 24-ГБ GPU, превосходит бывший 397B MoE на SWE-bench

Qwen3.6-27B (Apache 2.0, контекст 262K) работает в Q4_K_M, используя ~16,8 ГБ, и достигает 77,2 на SWE-bench Verified — превосходя Qwen3.5-397B-A17B MoE (76,2). Использует линейное внимание Gated DeltaNet с сохранением рассуждений для агентных рабочих процессов.

29 апр. 2026 г., 02:15 UTC

OpenClawRadar

Новости

Анализ 100 миллионов токенов в Claude Code показывает использование входных данных на 99,4%.

Анализ 1289 запросов в ходе продолжительных сессий программирования показывает, что Claude Code использовал 100,3 млн входных токенов (99,4%) против всего 616 тыс. выходных токенов (0,6%), при этом 84,2 млн токенов были закэшированы из-за повторной отправки контекста.

9 мар. 2026 г., 14:45 UTC

OpenClawRadar