DeepSeek V3.2, R1, Kimi K2.5, MiniMax M2.5 превосходят Claude Opus 4.6 в тестах

Результаты тестирования

Подробное сравнение моделей с открытым исходным кодом с Claude Opus 4.6 показывает конкурентоспособную или превосходящую производительность по нескольким категориям.

Общее логическое мышление: DeepSeek V3.2

DeepSeek V3.2 держится наравне с проприетарными моделями, при этом его высокопроизводительный вариант (V3.2-Speciale) превосходит GPT-5.

SWE-bench Verified: Claude Opus 4.6: 80.8%, DeepSeek V3.2: 73.0%
LiveCodeBench: Claude Opus 4.6: 76, DeepSeek V3.2: 74.1
MMLU-Pro: DeepSeek V3.2: 85.0%, Claude Opus 4.6: 82.0%

DeepSeek V3.2 обладает сильной поддержкой нескольких языков (CJK, арабский, европейские языки), контекстом 128K с разреженным вниманием, но уступает в креативном письме и некоторых крайних случаях структурированного вывода. Вывод: ~60 токенов/с, 1.18с TTFT, контекст 128K. Готов для 90%+ общих случаев использования. В 5 раз дешевле GPT-5, в 20 раз дешевле Opus 4.6.

Логическое мышление: DeepSeek R1

DeepSeek R1 превосходит дорогие модели логического мышления по нескольким тестам.

Humanity's Last Exam: DeepSeek R1: 50.2%, Claude Opus 4.6: 40.0%
MMLU-Pro: DeepSeek R1: 88.9%, Claude Opus 4.6: 82.0%

Вывод: ~30 токенов/с, ~2с TTFT. Медленнее, чем модели без логического мышления, из-за обработки цепочки мыслей. Лучшая модель логического мышления с открытым исходным кодом. Сравнима с GPT-5.2 Pro по HLE. В 30 раз дешевле o1.

Агентские возможности: Kimi K2.5

1 триллион параметров (32B активных на токен через MoE). Контекст 256K. Открытый исходный код под изменённой MIT.

Улучшение использования инструментов: Kimi K2.5: +20.1 баллов, Claude Opus 4.6: +12.4 баллов, GPT-5.2: +11.0 баллов
SWE-bench Verified: Claude Opus 4.6: 80.8%, Kimi K2.5: 76.8%
Humanity's Last Exam: Kimi K2.5: 50.2%, Claude Opus 4.6: 40.0%

Может автономно запускать до 100 под-агентов параллельно и обрабатывать 1500+ вызовов инструментов без вмешательства человека. Вывод: 334 токена/с, 0.31с TTFT. Лучшая модель для автономных агентских рабочих нагрузок. Самый быстрый TTFT, лучшее использование инструментов, конкурентоспособна по каждому тесту.

Код: MiniMax M2.5

MiniMax M2.5 стала одной из лучших моделей для программирования.

SWE-bench Verified: Claude Opus 4.6: 80.8%, MiniMax M2.5: 80.2%, GLM-5: 77.8%

MiniMax выпустила M2.7 18 марта — «саморазвивающуюся» модель за $0.30/$1.20 за M токенов. 96-й процентиль по точности кодирования, идеальный балл по общим знаниям. Одна из самых дешёвых передовых моделей. Модели для программирования с открытым исходным кодом эффективно соответствуют лучшей проприетарной модели.

Сравнение скорости

Для производства задержка так же важна, как и качество.

Скорость вывода (токенов/секунду):

Kimi K2.5 Turbo: 334
Llama 3.1 8B: ~200
GLM 4.7 Flash: ~150
DeepSeek V3.2: ~60
Claude Opus 4.6: 46
DeepSeek R1: ~30

Время до первого токена (TTFT):

Llama 3.1 8B: 0.2с
Kimi K2.5 Turbo: 0.31с
GLM 4.7 Flash: 0.51с
DeepSeek V3.2: 1.18с

Kimi K2.5 с 334 токенами/с в 7 раз быстрее Opus с 46 токенами/с.

Компьютерное зрение

Модели компьютерного зрения с открытым исходным кодом догнали проприетарные в обработке документов и стандартном анализе изображений. Llama 4 Scout, Qwen VL и другие хорошо справляются с извлечением данных из документов (счета, чеки, формы), пониманием диаграмм и логическим анализом нескольких изображений. Всё ещё уступают в детальном пространственном мышлении и рукописном тексте не на латинице.

Общее сравнение

Лучшая модель с открытым исходным кодом в каждой категории по сравнению с Claude Opus 4.6 (Opus = 100% по каждой оси):

Код (SWE-bench): Открытый исходный код 80.2% vs Opus 80.8% — Opus выигрывает на 0.6 баллов. Практически ничья.
Знания (MMLU-Pro): Открытый исходный код 88.9% vs Opus 82.0% — Открытый исходный код выигрывает на 6.9 баллов.
Скорость (токенов/с): Открытый исходный код 334 vs Opus 46 — Открытый исходный код в 7.3 раза быстрее.
Использование инструментов (улучшение): Открытый исходный код +20.1 баллов vs Opus +12.4 баллов — Открытый исходный код выигрывает на 7.7 баллов.

📖 Read the full source: r/LocalLLaMA