Модели с открытым исходным кодом соответствуют или превосходят Claude Opus 4.6 по тестовым показателям.

✍️ OpenClawRadar📅 Опубликовано: 19 марта 2026 г.🔗 Source
Модели с открытым исходным кодом соответствуют или превосходят Claude Opus 4.6 по тестовым показателям.
Ad
Ad

Результаты тестирования

Подробное сравнение моделей с открытым исходным кодом с Claude Opus 4.6 показывает конкурентоспособную или превосходящую производительность по нескольким категориям.

Общее логическое мышление: DeepSeek V3.2

DeepSeek V3.2 держится наравне с проприетарными моделями, при этом его высокопроизводительный вариант (V3.2-Speciale) превосходит GPT-5.

  • SWE-bench Verified: Claude Opus 4.6: 80.8%, DeepSeek V3.2: 73.0%
  • LiveCodeBench: Claude Opus 4.6: 76, DeepSeek V3.2: 74.1
  • MMLU-Pro: DeepSeek V3.2: 85.0%, Claude Opus 4.6: 82.0%

DeepSeek V3.2 обладает сильной поддержкой нескольких языков (CJK, арабский, европейские языки), контекстом 128K с разреженным вниманием, но уступает в креативном письме и некоторых крайних случаях структурированного вывода. Вывод: ~60 токенов/с, 1.18с TTFT, контекст 128K. Готов для 90%+ общих случаев использования. В 5 раз дешевле GPT-5, в 20 раз дешевле Opus 4.6.

Логическое мышление: DeepSeek R1

DeepSeek R1 превосходит дорогие модели логического мышления по нескольким тестам.

  • Humanity's Last Exam: DeepSeek R1: 50.2%, Claude Opus 4.6: 40.0%
  • MMLU-Pro: DeepSeek R1: 88.9%, Claude Opus 4.6: 82.0%

Вывод: ~30 токенов/с, ~2с TTFT. Медленнее, чем модели без логического мышления, из-за обработки цепочки мыслей. Лучшая модель логического мышления с открытым исходным кодом. Сравнима с GPT-5.2 Pro по HLE. В 30 раз дешевле o1.

Агентские возможности: Kimi K2.5

1 триллион параметров (32B активных на токен через MoE). Контекст 256K. Открытый исходный код под изменённой MIT.

  • Улучшение использования инструментов: Kimi K2.5: +20.1 баллов, Claude Opus 4.6: +12.4 баллов, GPT-5.2: +11.0 баллов
  • SWE-bench Verified: Claude Opus 4.6: 80.8%, Kimi K2.5: 76.8%
  • Humanity's Last Exam: Kimi K2.5: 50.2%, Claude Opus 4.6: 40.0%

Может автономно запускать до 100 под-агентов параллельно и обрабатывать 1500+ вызовов инструментов без вмешательства человека. Вывод: 334 токена/с, 0.31с TTFT. Лучшая модель для автономных агентских рабочих нагрузок. Самый быстрый TTFT, лучшее использование инструментов, конкурентоспособна по каждому тесту.

Код: MiniMax M2.5

MiniMax M2.5 стала одной из лучших моделей для программирования.

  • SWE-bench Verified: Claude Opus 4.6: 80.8%, MiniMax M2.5: 80.2%, GLM-5: 77.8%

MiniMax выпустила M2.7 18 марта — «саморазвивающуюся» модель за $0.30/$1.20 за M токенов. 96-й процентиль по точности кодирования, идеальный балл по общим знаниям. Одна из самых дешёвых передовых моделей. Модели для программирования с открытым исходным кодом эффективно соответствуют лучшей проприетарной модели.

Сравнение скорости

Для производства задержка так же важна, как и качество.

Скорость вывода (токенов/секунду):

  • Kimi K2.5 Turbo: 334
  • Llama 3.1 8B: ~200
  • GLM 4.7 Flash: ~150
  • DeepSeek V3.2: ~60
  • Claude Opus 4.6: 46
  • DeepSeek R1: ~30

Время до первого токена (TTFT):

  • Llama 3.1 8B: 0.2с
  • Kimi K2.5 Turbo: 0.31с
  • GLM 4.7 Flash: 0.51с
  • DeepSeek V3.2: 1.18с

Kimi K2.5 с 334 токенами/с в 7 раз быстрее Opus с 46 токенами/с.

Компьютерное зрение

Модели компьютерного зрения с открытым исходным кодом догнали проприетарные в обработке документов и стандартном анализе изображений. Llama 4 Scout, Qwen VL и другие хорошо справляются с извлечением данных из документов (счета, чеки, формы), пониманием диаграмм и логическим анализом нескольких изображений. Всё ещё уступают в детальном пространственном мышлении и рукописном тексте не на латинице.

Общее сравнение

Лучшая модель с открытым исходным кодом в каждой категории по сравнению с Claude Opus 4.6 (Opus = 100% по каждой оси):

  • Код (SWE-bench): Открытый исходный код 80.2% vs Opus 80.8% — Opus выигрывает на 0.6 баллов. Практически ничья.
  • Знания (MMLU-Pro): Открытый исходный код 88.9% vs Opus 82.0% — Открытый исходный код выигрывает на 6.9 баллов.
  • Скорость (токенов/с): Открытый исходный код 334 vs Opus 46 — Открытый исходный код в 7.3 раза быстрее.
  • Использование инструментов (улучшение): Открытый исходный код +20.1 баллов vs Opus +12.4 баллов — Открытый исходный код выигрывает на 7.7 баллов.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Использование API артефактов Claude учитывается в квоте чата, а не в биллинге API.
Новости

Использование API артефактов Claude учитывается в квоте чата, а не в биллинге API.

Использование артефактов Claude внутри Claude приводит к обычным API-вызовам, которые перехватываются Anthropic и аутентифицируются через активную сессию, засчитываясь в квоту чата плана, а не в API-биллинг. Пользователи могут проверить это, протестировав артефакты и убедившись, что использование API в Claude Console остаётся нулевым.

OpenClawRadar
GPT 5.5 против Claude: Битва за рефакторинг — отчёт разработчика
Новости

GPT 5.5 против Claude: Битва за рефакторинг — отчёт разработчика

Разработчик использовал GPT 5.5 для планирования и Claude для кодирования масштабного рефакторинга 36 000 строк кода на C. GPT 5.5 впечатлил четкими планами, но израсходовал 85% лимита за 2 часа по тарифу $30.

OpenClawRadar
Реальные почасовые затраты на долгосрочные команды ИИ-агентов
Новости

Реальные почасовые затраты на долгосрочные команды ИИ-агентов

Разработчик делится фактическими почасовыми затратами на команды ИИ-агентов, работающих сессиями по 5+ часов с полным доступом к Linux, браузеру и инструментам. Агенты для программирования стоят $10-$60/час, маркетинговые агенты $10-$30/час, а агенты для внутренних задач $5-$15/час.

OpenClawRadar
Claude Code 2.1.136: Безопасность действий, жесткие правила запрета и монитор безопасности
Новости

Claude Code 2.1.136: Безопасность действий, жесткие правила запрета и монитор безопасности

Claude Code CC 2.1.136 добавляет требования к безопасности действий и правдивой отчетности, вводит hard_deny как четвертую категорию пользовательских правил и разделяет блокировку безопасности на безусловные жесткие блоки и авторизуемые пользователем мягкие блоки.

OpenClawRadar