Разработчик рассматривает переход с DeepSeek на Grok для создания финансового AI-агента

Проблемы с производительностью финансового ИИ-агента и возможный переход
Разработчик создал финансовое веб-приложение с ИИ на FastAPI/Python, которое работает аналогично Perplexity, но для акций. Перед обработкой запросов языковой моделью приложение запускает параллельный конвейер, включающий получение актуальных котировок акций из нескольких финансовых API, актуальный веб-поиск через финансовые поисковые API и данные календаря отчетностей. Весь этот структурированный контекст добавляется в системный промпт, при этом модель отвечает только за рассуждения и форматирование, а фактические данные поступают из API, что делает уровень галлюцинаций менее важным для данного случая использования.
Текущие проблемы с производительностью модели
В настоящее время разработчик использует DeepSeek V3.2 Reasoning и сообщает о значительных проблемах с производительностью:
- TTFT (Время до первого токена): ~70 секунд
- Скорость вывода: ~25 токенов в секунду
- Опыт потоковой передачи описан как "ужасный"
- Таймаут начала потока установлен на 75 секунд, чтобы избежать постоянных сбоев
Требования приложения
Финансовый ИИ-агент имеет две основные функции:
- Поток чата: Финансовый анализ в стиле Perplexity со встроенными ссылками на источники
- Поток проверки сделок: Торговый коуч, который выдает рекомендации GO/NO-GO/WAIT с указанием точки входа, стоп-лосса, цели и соотношения риск/прибыль
Требования к модели включают:
- Высокая производительность с низким TTFT и высокой скоростью токенов в секунду для удобства потоковой передачи
- Низкая стоимость для небольшого проекта
- Достаточный интеллект для многошаговых торговых рассуждений
- Хорошее следование инструкциям для строгих форматов вывода при проверке сделок
Рассмотрение Grok 4.1 Fast Reasoning
Разработчик рассматривает переход на Grok 4.1 Fast Reasoning на основе следующих сравнений:
- TTFT: ~15 секунд (против ~70с у DeepSeek)
- Скорость вывода: ~75 токенов в секунду (против ~25 т/с у DeepSeek)
- Оценка интеллекта AA: 64 против 57 у DeepSeek
- Стоимость ввода: $0,20 против $0,28 за миллион токенов
Другие рассматриваемые модели
Разработчик также рассматривал Minimax 2.5, Kimi K2.5, новые модели Qwen 3.5 и Gemini 3 Flash, но отмечает, что большинство из них относительно дорогие и не лучше подходят для их конкретного случая использования.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Создатель контента на YouTube с использованием ИИ сообщает о доходах от монетизации и изменениях в рабочем процессе.
Разработчик, использующий Claude Opus 4.6 для создания сценариев, сообщил о заработке в $12.20 с 28 400 просмотров на своём YouTube-канале с контентом, созданным искусственным интеллектом, что побудило его переключиться на фриланс по созданию контента для бизнеса.

Самостоятельный хостинг против управляемого OpenClaw: 4-месячное сравнение разработчика
Разработчик перешёл с самостоятельного хостинга OpenClaw за 4 месяца на управляемый сервис RunLobster за $49/месяц. Самостоятельный хостинг требовал постоянного обслуживания, включая скрипты переподключения, отладку обновлений конфигурации и борьбу с неожиданными счетами за API.

Разработчик создает текстовую игру Track Star, используя Claude в качестве партнера по программированию.
Разработчик использовал Claude в качестве основного партнёра по программированию для создания Track Star — текстовой симуляции карьеры в лёгкой атлетике, заполняя пробелы в знаниях Python во время вечерней и выходной работы в течение нескольких месяцев. Полированная демо-версия была запущена в Steam на прошлой неделе.

Открытый рабочий процесс пользовательских отчетов OpenClaw с Minimax 2.7 для редактирования Markdown
Пользователь описывает использование Minimax 2.7 через Openrouter в качестве более дешёвой альтернативы Claude Cowork для исследования и написания Markdown, интегрируя его с OpenClaw, голосовыми заметками в Telegram, Obsidian и Syncthing для полуживого рабочего процесса редактирования.