Открытые LLM превосходят Claude Opus 4.6 в генерации торговых стратегий при более низкой стоимости.

Пользователь Reddit на форуме r/LocalLLaMA провёл сравнительное тестирование 10 различных больших языковых моделей, чтобы оценить их производительность в генерации торговых стратегий. Результаты бросают вызов предположениям о соотношении цены и производительности коммерческих языковых моделей.
Методология тестирования и модели
Пользователь запустил 10 языковых моделей с одинаковым запросом: «создай лучшую торговую стратегию». Протестированные модели включали:
- Claude Opus 4.6
- Gemini 3, 3.1 Pro и GPT-5.2
- Gemini Flash 3, GPT-5-mini, Kimi K2.5 и Minimax 2.5
Тест был проведён три раза для проверки согласованности результатов.
Ключевые выводы
Согласно источнику:
- Minimax 2.5 и Gemini 3.1 возглавили рейтинг
- Модели Anthropic (включая Opus 4.6) показали «посредственные» результаты и не вошли в топ-4
- Claude Opus 4.6 стоил в 10 раз дороже конкурирующих моделей
- Модели с открытым исходным кодом были значительно медленнее моделей от Anthropic и Google
Пользователь отметил первоначальный скептицизм по поводу результатов, заявив: «Честно говоря, я не поверил результатам, когда впервые это сделал». После проверки он заключил: «Результаты достоверны».
Практические последствия
Для разработчиков, использующих ИИ-агентов для программирования, это говорит о том, что для определённых специализированных задач, таких как генерация торговых стратегий, модели с открытым исходным кодом могут предложить лучшую производительность при значительно более низкой стоимости. Основной компромисс, отмеченный в исследовании, — скорость: модели с открытым исходным кодом были описаны как «значительно медленнее» коммерческих альтернатив от Anthropic и Google.
Вывод пользователя был прямолинеен: «за исключением этого, нет веских причин использовать Opus или Sonnet для этой задачи».
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Миньоны Stripe: Одноразовые ИИ-агенты для программирования
Миньоны – это однострочные AI-агенты кода Stripe, направленные на повышение продуктивности разработчиков за счет полного автоматизированного процесса с использованием LLM.

Google, Microsoft и xAI согласились делиться ранними моделями ИИ с правительством США
Google, Microsoft и xAI (компания Илона Маска в сфере ИИ) согласились добровольно предоставлять правительству США ранний доступ к своим моделям ИИ для тестирования безопасности, в рамках инициативы, о которой сообщила Wall Street Journal.

Анализ 'Клаузажа': Паттерны тревожности пользователей в моделях подписки на ИИ
Анализ пользователей выявляет 'Клозедж' или 'Синдром Клода' — поведенческие паттерны, при которых подписчики премиум-версий ИИ испытывают хроническую тревожность от использования, избегающее поведение и компульсивный мониторинг ресурсов. Источник детализирует специфические симптомы, такие как упреждающее избегание, гипербдительность при использовании и парадоксальное недопользование платными сервисами.

Антропик блокирует сторонние обёртки от ограничений подписки на Claude, но обходное решение доступно.
Anthropic ограничила доступ сторонних оболочек к лимитам подписки Claude, что может нарушить рабочие процессы, зависящие от этих инструментов. Пользователь Reddit сообщает о разработке обходного решения с открытым исходным кодом после того, как чуть не потерял месяцы тренировочных данных.