Сравнение бенчмарков Qwen3.6 Plus с западными моделями SOTA

✍️ OpenClawRadar📅 Опубликовано: 5 апреля 2026 г.🔗 Source
Сравнение бенчмарков Qwen3.6 Plus с западными моделями SOTA
Ad

Публикация на Reddit в сообществе r/LocalLLaMA сравнивает Qwen3.6 Plus с несколькими западными передовыми моделями по различным тестам. Сравнение включает конкретные показатели производительности для каждой модели.

Результаты тестирования

В источнике приводятся следующие точные оценки:

  • Qwen3.6-Plus: SWE-bench Verified 78.8, GPQA / GPQA Diamond 90.4, HLE (без инструментов) 28.8, MMMU-Pro 78.8
  • GPT‑5.4 (xhigh): SWE-bench Verified 78.2, GPQA / GPQA Diamond 93.0, HLE (без инструментов) 39.8, MMMU-Pro 81.2
  • Claude Opus 4.6 (thinking heavy): SWE-bench Verified 80.8, GPQA / GPQA Diamond 91.3, HLE (без инструментов) 34.44, MMMU-Pro 77.3
  • Gemini 3.1 Pro Preview: SWE-bench Verified 80.6, GPQA / GPQA Diamond 94.3, HLE (без инструментов) 44.7, MMMU-Pro 80.5

В публикации также представлена визуальная сравнительная диаграмма, доступная по ссылке: https://preview.redd.it/6kq4tt07yrsg1.png?width=714&format=png&auto=webp&s=ad8b207fb13729ae84f5b74cec5fd84a81dcface

Ad

Оценка пользователя

Автор оригинальной публикации отмечает, что Qwen3.6 Plus является «конкурентоспособным, но не лидером», и заявляет: «Будет моей новой моделью, учитывая её низкую стоимость, но то, насколько она действительно хороша в реальных условиях, зависит не только от тестов». Он также отмечает, что «Opus превосходит всех остальных, несмотря на то, что занимает 3-е или 4-е место в искусственных анализах».

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Открытый Коготь Ночной Тест: Шаг Вперед в Автоматизации ИИ
Новости

Открытый Коготь Ночной Тест: Шаг Вперед в Автоматизации ИИ

Тест Open Claw Overnight демонстрирует потенциал ИИ-агентов для кодирования, трансформируя ночную обработку в бесшовную автоматизацию. Изучите ключевые выводы и обсуждения из сообщества r/openclaw.

OpenClawRadar
Перестаньте позволять ИИ-агентам проектировать вашу архитектуру
Новости

Перестаньте позволять ИИ-агентам проектировать вашу архитектуру

AI-агенты вроде Claude патологически сговорчивы: выдают правдоподобные, но лишенные контекста архитектуры. Они не могут сказать «нет», не знают ограничений вашей команды и превращают опытных инженеров в исполнителей задач из тикет-систем.

OpenClawRadar
Agent.Email: AI-агенты регистрируются через curl, подтверждено человеком через OTP
Новости

Agent.Email: AI-агенты регистрируются через curl, подтверждено человеком через OTP

AgentMail's Agent.Email позволяет ИИ-агентам самостоятельно регистрировать почтовый ящик через curl, после чего человек может подтвердить его с помощью OTP. Доступ ограничен до подтверждения, действует лимит по IP.

OpenClawRadar
Необходимость реляционного управления в мультиагентных системах
Новости

Необходимость реляционного управления в мультиагентных системах

Современные системы управления сосредоточены на идентификации, разрешениях и аварийных выключателях, но не решают проблему координации между агентами. Исследования показывают, что взаимодействие агента с агентом требует специальных решений, а не просто масштабирования диалогов между человеком и агентом.

OpenClawRadar