Открытые LLM против Claude Opus 4.6: тест торговых стратегий

Пользователь Reddit на форуме r/LocalLLaMA провёл сравнительное тестирование 10 различных больших языковых моделей, чтобы оценить их производительность в генерации торговых стратегий. Результаты бросают вызов предположениям о соотношении цены и производительности коммерческих языковых моделей.

Методология тестирования и модели

Пользователь запустил 10 языковых моделей с одинаковым запросом: «создай лучшую торговую стратегию». Протестированные модели включали:

Claude Opus 4.6
Gemini 3, 3.1 Pro и GPT-5.2
Gemini Flash 3, GPT-5-mini, Kimi K2.5 и Minimax 2.5

Тест был проведён три раза для проверки согласованности результатов.

Ключевые выводы

Согласно источнику:

Minimax 2.5 и Gemini 3.1 возглавили рейтинг
Модели Anthropic (включая Opus 4.6) показали «посредственные» результаты и не вошли в топ-4
Claude Opus 4.6 стоил в 10 раз дороже конкурирующих моделей
Модели с открытым исходным кодом были значительно медленнее моделей от Anthropic и Google

Пользователь отметил первоначальный скептицизм по поводу результатов, заявив: «Честно говоря, я не поверил результатам, когда впервые это сделал». После проверки он заключил: «Результаты достоверны».

Практические последствия

Для разработчиков, использующих ИИ-агентов для программирования, это говорит о том, что для определённых специализированных задач, таких как генерация торговых стратегий, модели с открытым исходным кодом могут предложить лучшую производительность при значительно более низкой стоимости. Основной компромисс, отмеченный в исследовании, — скорость: модели с открытым исходным кодом были описаны как «значительно медленнее» коммерческих альтернатив от Anthropic и Google.

Вывод пользователя был прямолинеен: «за исключением этого, нет веских причин использовать Opus или Sonnet для этой задачи».

📖 Read the full source: r/LocalLLaMA

Открытые LLM превосходят Claude Opus 4.6 в генерации торговых стратегий при более низкой стоимости.

Методология тестирования и модели

Ключевые выводы

Практические последствия

👀 Смотрите также

Отчет Стэнфорда показывает расхождение во взглядах на влияние ИИ между экспертами и общественностью.

Релиз Claude Code v2.1.117: Разветвление под-агентов, улучшения плагинов и исправления производительности

OpenAI разрабатывает AI-смартфон на чипах MediaTek/Qualcomm; цель массового производства — 2028 год

Zig项目关于严格反LLM贡献政策的理由