Développeur envisage de passer de DeepSeek à Grok pour son agent d'IA financière

Problèmes de performance de l'agent IA financier et changement potentiel
Un développeur a créé une application web d'IA financière en FastAPI/Python qui fonctionne de manière similaire à Perplexity mais pour les actions. L'application exécute un pipeline parallèle avant que le LLM ne traite les requêtes, incluant des cotations boursières en direct de plusieurs API financières, une recherche web en direct d'API de recherche financière et des données de calendrier des résultats. Tout ce contexte structuré est injecté dans l'invite système, le modèle ne gérant que le raisonnement et la mise en forme tandis que les faits proviennent des API, rendant les taux d'hallucination moins pertinents pour ce cas d'utilisation.
Problèmes de performance actuels du modèle
Le développeur utilise actuellement DeepSeek V3.2 Reasoning et signale des problèmes de performance significatifs :
- TTFT (Temps jusqu'au premier jeton) : ~70 secondes
- Vitesse de sortie : ~25 jetons par seconde
- Expérience de streaming décrite comme "terrible"
- Délai de démarrage du streaming fixé à 75 secondes pour éviter les dépassements de délai constants
Exigences de l'application
L'agent IA financier a deux fonctionnalités principales :
- Flux de chat : Analyse financière de style Perplexity avec citations de sources en ligne
- Flux de vérification des transactions : Coach de trading qui produit GO/NO-GO/WAIT avec point d'entrée, stop-loss, objectif et ratio R:R
Les exigences du modèle incluent :
- Performance rapide avec un TTFT faible et un nombre élevé de jetons par seconde pour une UX de streaming
- Coût faible pour un petit projet
- Suffisamment intelligent pour un raisonnement de trading en plusieurs étapes
- Bon suivi des instructions pour des formats de sortie stricts dans les vérifications de transactions
Envisager Grok 4.1 Fast Reasoning
Le développeur envisage de passer à Grok 4.1 Fast Reasoning sur la base de ces comparaisons :
- TTFT : ~15 secondes (contre ~70s pour DeepSeek)
- Vitesse de sortie : ~75 jetons par seconde (contre ~25 t/s pour DeepSeek)
- Score d'intelligence AA : 64 contre 57 pour DeepSeek
- Coût d'entrée : 0,20 $ contre 0,28 $ par million de jetons
Autres modèles envisagés
Le développeur a également examiné Minimax 2.5, Kimi K2.5, les nouveaux modèles Qwen 3.5 et Gemini 3 Flash, mais note que la plupart sont relativement chers et pas meilleurs pour leur cas d'utilisation spécifique.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Développeur Solo Dirige une Entreprise avec 4 Agents IA sur le Niveau Gratuit de Gemini
Un développeur à Taïwan a créé quatre agents IA en utilisant OpenClaw et le niveau gratuit de Gemini 2.5 Flash (1 500 requêtes/jour) pour gérer la génération de contenu, les pistes commerciales, l'analyse de sécurité et les opérations pour son agence technologique, avec des coûts mensuels en LLM à 0 $.

Pipeline TDD IA : Comment de mauvaises instructions ont créé 3 400 tests et ce qui a permis de les corriger
Un développeur a créé un pipeline TDD multi-agents avec Claude Code où différents agents gèrent les tests, le codage et la revue. L'instruction initiale 'écrire des tests pour tout' a généré 3 400 tests dont seulement 44 % étaient valides, conduisant à un 'théâtre de couverture' où les tests ne détectaient pas les vrais bugs.

Claude IA adopte une terminologie personnalisée à partir de spécifications de 300 pages sans sollicitation
Un développeur a chargé plus de 300 pages de spécifications formelles dans Claude IA comme connaissances du projet, comprenant 88 000 mots répartis sur 20 articles, 35 falsificateurs, un glossaire, un guide de terrain, une suite de tests et une boîte à outils de compression. Claude a commencé à utiliser le vocabulaire personnalisé de manière opérationnelle pour décrire ses propres processus sans y être incité.

Construction de couches de données verticales pour les agents OpenClaw
La véritable opportunité avec OpenClaw n'est pas seulement de l'utiliser, mais de construire des couches de données spécifiques à l'industrie qui connectent des sources de données désordonnées, les normalisent en schémas utilisables et les exposent comme des points d'accès d'outils propres qui renvoient du JSON structuré.