Сравнение бенчмарков Qwen3.6 Plus с западными моделями SOTA

Публикация на Reddit в сообществе r/LocalLLaMA сравнивает Qwen3.6 Plus с несколькими западными передовыми моделями по различным тестам. Сравнение включает конкретные показатели производительности для каждой модели.
Результаты тестирования
В источнике приводятся следующие точные оценки:
- Qwen3.6-Plus: SWE-bench Verified 78.8, GPQA / GPQA Diamond 90.4, HLE (без инструментов) 28.8, MMMU-Pro 78.8
- GPT‑5.4 (xhigh): SWE-bench Verified 78.2, GPQA / GPQA Diamond 93.0, HLE (без инструментов) 39.8, MMMU-Pro 81.2
- Claude Opus 4.6 (thinking heavy): SWE-bench Verified 80.8, GPQA / GPQA Diamond 91.3, HLE (без инструментов) 34.44, MMMU-Pro 77.3
- Gemini 3.1 Pro Preview: SWE-bench Verified 80.6, GPQA / GPQA Diamond 94.3, HLE (без инструментов) 44.7, MMMU-Pro 80.5
В публикации также представлена визуальная сравнительная диаграмма, доступная по ссылке: https://preview.redd.it/6kq4tt07yrsg1.png?width=714&format=png&auto=webp&s=ad8b207fb13729ae84f5b74cec5fd84a81dcface
Оценка пользователя
Автор оригинальной публикации отмечает, что Qwen3.6 Plus является «конкурентоспособным, но не лидером», и заявляет: «Будет моей новой моделью, учитывая её низкую стоимость, но то, насколько она действительно хороша в реальных условиях, зависит не только от тестов». Он также отмечает, что «Opus превосходит всех остальных, несмотря на то, что занимает 3-е или 4-е место в искусственных анализах».
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Разработчики из Кремниевой долины сообщают об интенсивном использовании ИИ Claude и нагрузке на инфраструктуру.
Старший инженер по ИИ в Meta тратит $2000 в месяц на токены Claude Code, одновременно запускает 2+ агентов и создал расширение для VS Code, которое автоматически генерирует граф знаний Obsidian из диалогов с Claude. Сообщается, что инфраструктура 'полностью разрушена' из-за внедрения кода, сгенерированного Claude, без проверки.

Условия контракта OpenAI с Пентагоном разрешают «любое законное использование», включая потенциальную слежку
OpenAI договорилась с Пентагоном о новых условиях, включающих формулировку 'любое законное использование', что, по словам источников, позволяет военным использовать технологии OpenAI для программ массовой слежки, если они технически законны. Anthropic была внесена в чёрный список за отказ отступить от двух красных линий: никакой массовой слежки за американцами и никаких летальных автономных вооружений.

Claude Code v2.1.152: /code-review --fix, плагин disallowed-tools, хук MessageDisplay
Claude Code v2.1.152 представляет /code-review --fix для применения предложений к вашему рабочему дереву, /reload-skills, хук MessageDisplay и запрещенные инструменты плагинов в frontmatter. Также исправления деградации стилей в длительных сессиях, дедупликации MCP и отчетности кэша.

Предложение по адаптивному маршрутизированию вывода для повышения эффективности обработки AI-запросов
Предложение, представленное Anthropic в апреле 2026 года, описывает пятиэтапную систему маршрутизации запросов к подходящим моделям ИИ на основе оценки сложности, используя простые сигналы, такие как количество символов и предложений, до начала любого вывода модели.