Бенчмарк торговых стратегий: Дешёвые ИИ побеждают Claude Opus 4.6

Пользователь Reddit провёл сравнительный анализ 10 различных крупных языковых моделей на их способность разрабатывать торговые стратегии. Результаты показали, что более дешёвые модели стабильно превосходили более дорогие варианты, причём Claude Opus 4.6 не смог войти в первую четвёрку, несмотря на стоимость в 10 раз выше, чем у некоторых конкурентов.

Протестированные модели

Claude Opus 4.6
Gemini 3
Gemini 3.1 Pro
GPT-5.2
Gemini Flash 3
GPT-5-mini
Kimi K2.5
Minimax 2.5

Ключевые выводы

В ходе тестирования всем моделям был задан одинаковый запрос: «создать лучшую торговую стратегию». Модели вроде Minimax 2.5 и Gemini 3.1 возглавили рейтинг, в то время как модели Anthropic показали слабые результаты в сравнении. Kimi K2.5 превзошёл Claude в этом соревновании, будучи в 10 раз дешевле.

Эксперимент проводился трижды для обеспечения стабильности результатов. Автор отметил, что умение хорошо программировать не обязательно означает хорошие результаты в других задачах, таких как разработка стратегий.

Подобные специализированные тесты полезны для разработчиков, которым нужно выбирать модели ИИ для конкретных задач, выходящих за рамки общей помощи в программировании. Результаты показывают, что выбор модели должен быть ориентирован на конкретную задачу, а не основываться только на общей репутации или цене.

📖 Read the full source: r/ClaudeAI

Бенчмарк торговых стратегий: Более дешёвые модели ИИ превосходят Claude Opus 4.6

Протестированные модели

Ключевые выводы

👀 Смотрите также

Почему каждый клиент теперь хочет чат-бот (и почему это новый карусель)

Claude.ai, API и Claude Code испытывают повышенное количество ошибок

Тест Apple Silicon: Производительность Qwen3-VL на M3, M4 и M5 Max для классификации Vision LLM

Пандемия «Я не знаю, это написал Клод»: когда когнитивная капитуляция заменяет владение кодом