Qwen3.6 Plus vs SOTA: бенчмарки SWE-bench, GPQA, HLE

Публикация на Reddit в сообществе r/LocalLLaMA сравнивает Qwen3.6 Plus с несколькими западными передовыми моделями по различным тестам. Сравнение включает конкретные показатели производительности для каждой модели.

Результаты тестирования

В источнике приводятся следующие точные оценки:

Qwen3.6-Plus: SWE-bench Verified 78.8, GPQA / GPQA Diamond 90.4, HLE (без инструментов) 28.8, MMMU-Pro 78.8
GPT‑5.4 (xhigh): SWE-bench Verified 78.2, GPQA / GPQA Diamond 93.0, HLE (без инструментов) 39.8, MMMU-Pro 81.2
Claude Opus 4.6 (thinking heavy): SWE-bench Verified 80.8, GPQA / GPQA Diamond 91.3, HLE (без инструментов) 34.44, MMMU-Pro 77.3
Gemini 3.1 Pro Preview: SWE-bench Verified 80.6, GPQA / GPQA Diamond 94.3, HLE (без инструментов) 44.7, MMMU-Pro 80.5

В публикации также представлена визуальная сравнительная диаграмма, доступная по ссылке: https://preview.redd.it/6kq4tt07yrsg1.png?width=714&format=png&auto=webp&s=ad8b207fb13729ae84f5b74cec5fd84a81dcface

Оценка пользователя

Автор оригинальной публикации отмечает, что Qwen3.6 Plus является «конкурентоспособным, но не лидером», и заявляет: «Будет моей новой моделью, учитывая её низкую стоимость, но то, насколько она действительно хороша в реальных условиях, зависит не только от тестов». Он также отмечает, что «Opus превосходит всех остальных, несмотря на то, что занимает 3-е или 4-е место в искусственных анализах».

📖 Read the full source: r/LocalLLaMA

Сравнение бенчмарков Qwen3.6 Plus с западными моделями SOTA

Результаты тестирования

Оценка пользователя

👀 Смотрите также

Анализ принудительного системного промпта Claude Code на ~12K токенов выявил приоритет правил над конфигурацией пользователя

Опыт разработчика с ИИ Claude: от партнера по размышлениям до когнитивного аутсорсинга

Docker-контейнеры: Аргументы против cron-заданий

Claude Code v2.1.160: Подсказки безопасности для конфигурации оболочки, защита файлов acceptEdits и десятки исправлений ошибок