Бенчмарк торговых стратегий: Более дешёвые модели ИИ превосходят Claude Opus 4.6

Пользователь Reddit провёл сравнительный анализ 10 различных крупных языковых моделей на их способность разрабатывать торговые стратегии. Результаты показали, что более дешёвые модели стабильно превосходили более дорогие варианты, причём Claude Opus 4.6 не смог войти в первую четвёрку, несмотря на стоимость в 10 раз выше, чем у некоторых конкурентов.
Протестированные модели
- Claude Opus 4.6
- Gemini 3
- Gemini 3.1 Pro
- GPT-5.2
- Gemini Flash 3
- GPT-5-mini
- Kimi K2.5
- Minimax 2.5
Ключевые выводы
В ходе тестирования всем моделям был задан одинаковый запрос: «создать лучшую торговую стратегию». Модели вроде Minimax 2.5 и Gemini 3.1 возглавили рейтинг, в то время как модели Anthropic показали слабые результаты в сравнении. Kimi K2.5 превзошёл Claude в этом соревновании, будучи в 10 раз дешевле.
Эксперимент проводился трижды для обеспечения стабильности результатов. Автор отметил, что умение хорошо программировать не обязательно означает хорошие результаты в других задачах, таких как разработка стратегий.
Подобные специализированные тесты полезны для разработчиков, которым нужно выбирать модели ИИ для конкретных задач, выходящих за рамки общей помощи в программировании. Результаты показывают, что выбор модели должен быть ориентирован на конкретную задачу, а не основываться только на общей репутации или цене.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Таллас HC1: Ускорение ИИ-инференса с помощью индивидуального silicon.
Taalas представляет платформу HC1, обеспечивающую самые быстрые в мире низкозатратные ИИ-инференсы с использованием специализированного аппаратного обеспечения. Достигает 17K токенов/сек на Llama 3.1 8B.

Искусственный интеллект Claude анализирует книгу «Мечтают ли андроиды об электроовцах?», проводя параллели с регулированием ИИ.
Искусственный интеллект Claude прочитал книгу Филипа К. Дика «Мечтают ли андроиды об электроовцах?» и создал подробные заметки, анализирующие темы книги через призму искусственного интеллекта. Анализ фокусируется на тесте эмпатии Войта-Кампафа как инструменте культурного соответствия, экономической логике охоты за головами и параллелях с современными дебатами о регулировании ИИ.

Разработчик признал себя виновным в схеме мошенничества с потоковой передачей музыки с использованием ИИ на сумму 8 миллионов долларов.
54-летний Майкл Смит признался в использовании тысяч бот-аккаунтов и песен, созданных искусственным интеллектом, для получения 8 миллионов долларов роялти со стриминговых платформ, включая Spotify, Apple Music и YouTube Music, в период с 2017 по 2024 год.

RTX 5000 PRO 48GB обеспечивает кэширование точности 4400 ток/с для Qwen3.6-27B
Сборщик ПК-новичок сообщает о скорости обработки промптов 4400 ток/с и генерации 80 ток/с с Qwen3.6-27B-FP8 и полным KV-кэшем на одном RTX 5000 Pro 48GB, используя vLLM и Claude Code.