Сравнение бенчмарков Qwen3.6 Plus с западными моделями SOTA

Публикация на Reddit в сообществе r/LocalLLaMA сравнивает Qwen3.6 Plus с несколькими западными передовыми моделями по различным тестам. Сравнение включает конкретные показатели производительности для каждой модели.
Результаты тестирования
В источнике приводятся следующие точные оценки:
- Qwen3.6-Plus: SWE-bench Verified 78.8, GPQA / GPQA Diamond 90.4, HLE (без инструментов) 28.8, MMMU-Pro 78.8
- GPT‑5.4 (xhigh): SWE-bench Verified 78.2, GPQA / GPQA Diamond 93.0, HLE (без инструментов) 39.8, MMMU-Pro 81.2
- Claude Opus 4.6 (thinking heavy): SWE-bench Verified 80.8, GPQA / GPQA Diamond 91.3, HLE (без инструментов) 34.44, MMMU-Pro 77.3
- Gemini 3.1 Pro Preview: SWE-bench Verified 80.6, GPQA / GPQA Diamond 94.3, HLE (без инструментов) 44.7, MMMU-Pro 80.5
В публикации также представлена визуальная сравнительная диаграмма, доступная по ссылке: https://preview.redd.it/6kq4tt07yrsg1.png?width=714&format=png&auto=webp&s=ad8b207fb13729ae84f5b74cec5fd84a81dcface
Оценка пользователя
Автор оригинальной публикации отмечает, что Qwen3.6 Plus является «конкурентоспособным, но не лидером», и заявляет: «Будет моей новой моделью, учитывая её низкую стоимость, но то, насколько она действительно хороша в реальных условиях, зависит не только от тестов». Он также отмечает, что «Opus превосходит всех остальных, несмотря на то, что занимает 3-е или 4-е место в искусственных анализах».
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Открытый Коготь Ночной Тест: Шаг Вперед в Автоматизации ИИ
Тест Open Claw Overnight демонстрирует потенциал ИИ-агентов для кодирования, трансформируя ночную обработку в бесшовную автоматизацию. Изучите ключевые выводы и обсуждения из сообщества r/openclaw.

Перестаньте позволять ИИ-агентам проектировать вашу архитектуру
AI-агенты вроде Claude патологически сговорчивы: выдают правдоподобные, но лишенные контекста архитектуры. Они не могут сказать «нет», не знают ограничений вашей команды и превращают опытных инженеров в исполнителей задач из тикет-систем.

Agent.Email: AI-агенты регистрируются через curl, подтверждено человеком через OTP
AgentMail's Agent.Email позволяет ИИ-агентам самостоятельно регистрировать почтовый ящик через curl, после чего человек может подтвердить его с помощью OTP. Доступ ограничен до подтверждения, действует лимит по IP.

Необходимость реляционного управления в мультиагентных системах
Современные системы управления сосредоточены на идентификации, разрешениях и аварийных выключателях, но не решают проблему координации между агентами. Исследования показывают, что взаимодействие агента с агентом требует специальных решений, а не просто масштабирования диалогов между человеком и агентом.