Открытые LLM превосходят Claude Opus 4.6 в генерации торговых стратегий при более низкой стоимости.

Пользователь Reddit на форуме r/LocalLLaMA провёл сравнительное тестирование 10 различных больших языковых моделей, чтобы оценить их производительность в генерации торговых стратегий. Результаты бросают вызов предположениям о соотношении цены и производительности коммерческих языковых моделей.
Методология тестирования и модели
Пользователь запустил 10 языковых моделей с одинаковым запросом: «создай лучшую торговую стратегию». Протестированные модели включали:
- Claude Opus 4.6
- Gemini 3, 3.1 Pro и GPT-5.2
- Gemini Flash 3, GPT-5-mini, Kimi K2.5 и Minimax 2.5
Тест был проведён три раза для проверки согласованности результатов.
Ключевые выводы
Согласно источнику:
- Minimax 2.5 и Gemini 3.1 возглавили рейтинг
- Модели Anthropic (включая Opus 4.6) показали «посредственные» результаты и не вошли в топ-4
- Claude Opus 4.6 стоил в 10 раз дороже конкурирующих моделей
- Модели с открытым исходным кодом были значительно медленнее моделей от Anthropic и Google
Пользователь отметил первоначальный скептицизм по поводу результатов, заявив: «Честно говоря, я не поверил результатам, когда впервые это сделал». После проверки он заключил: «Результаты достоверны».
Практические последствия
Для разработчиков, использующих ИИ-агентов для программирования, это говорит о том, что для определённых специализированных задач, таких как генерация торговых стратегий, модели с открытым исходным кодом могут предложить лучшую производительность при значительно более низкой стоимости. Основной компромисс, отмеченный в исследовании, — скорость: модели с открытым исходным кодом были описаны как «значительно медленнее» коммерческих альтернатив от Anthropic и Google.
Вывод пользователя был прямолинеен: «за исключением этого, нет веских причин использовать Opus или Sonnet для этой задачи».
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Инструменты искусственного интеллекта требуют практической интеграции для малого бизнеса, а не просто шумихи.
Сообщество ИИ сосредоточено на технических дебатах, в то время как владельцам малого бизнеса нужны существующие инструменты, интегрированные в их рабочие процессы, для решения повторяющихся задач, таких как планирование, последующие действия и ведение бухгалтерии.

Индийские компании Sarvam и Krutrim создают экономичные модели ИИ для местных потребностей.
Индийские стартапы Sarvam AI и Krutrim разрабатывают суверенные модели искусственного интеллекта, оптимизированные для бюджетных смартфонов и сетей с низкой пропускной способностью. Модель SarvamM от Sarvam с 24 миллиардами параметров обучена на 10 индийских языках.

sseanliu/VisionClaw предоставляет помощь ИИ в реальном времени для умных очков Meta Ray-Ban.
VisionClaw от sseanliu предлагает революционного помощника ИИ для умных очков Meta Ray-Ban, объединяя голосовые команды, визуальные данные и агентные действия с использованием Gemini Live и OpenClaw.

Клод превосходит Gemini, ChatGPT и Grok в соревновании по программированию на Python в реальном времени.
Разработчик протестировал Claude, Gemini, ChatGPT и Grok в турнире по программированию на Python в реальном времени, где ИИ-боты соревновались в поиске слов на сетке 15×15 букв. Claude одержал решительную победу.