DeepSeek vs Grok 4.1 : TTFT 70s contre 15s pour agent IA finance

Problèmes de performance de l'agent IA financier et changement potentiel

Un développeur a créé une application web d'IA financière en FastAPI/Python qui fonctionne de manière similaire à Perplexity mais pour les actions. L'application exécute un pipeline parallèle avant que le LLM ne traite les requêtes, incluant des cotations boursières en direct de plusieurs API financières, une recherche web en direct d'API de recherche financière et des données de calendrier des résultats. Tout ce contexte structuré est injecté dans l'invite système, le modèle ne gérant que le raisonnement et la mise en forme tandis que les faits proviennent des API, rendant les taux d'hallucination moins pertinents pour ce cas d'utilisation.

Problèmes de performance actuels du modèle

Le développeur utilise actuellement DeepSeek V3.2 Reasoning et signale des problèmes de performance significatifs :

TTFT (Temps jusqu'au premier jeton) : ~70 secondes
Vitesse de sortie : ~25 jetons par seconde
Expérience de streaming décrite comme "terrible"
Délai de démarrage du streaming fixé à 75 secondes pour éviter les dépassements de délai constants

Exigences de l'application

L'agent IA financier a deux fonctionnalités principales :

Flux de chat : Analyse financière de style Perplexity avec citations de sources en ligne
Flux de vérification des transactions : Coach de trading qui produit GO/NO-GO/WAIT avec point d'entrée, stop-loss, objectif et ratio R:R

Les exigences du modèle incluent :

Performance rapide avec un TTFT faible et un nombre élevé de jetons par seconde pour une UX de streaming
Coût faible pour un petit projet
Suffisamment intelligent pour un raisonnement de trading en plusieurs étapes
Bon suivi des instructions pour des formats de sortie stricts dans les vérifications de transactions

Envisager Grok 4.1 Fast Reasoning

Le développeur envisage de passer à Grok 4.1 Fast Reasoning sur la base de ces comparaisons :

TTFT : ~15 secondes (contre ~70s pour DeepSeek)
Vitesse de sortie : ~75 jetons par seconde (contre ~25 t/s pour DeepSeek)
Score d'intelligence AA : 64 contre 57 pour DeepSeek
Coût d'entrée : 0,20 $ contre 0,28 $ par million de jetons

Autres modèles envisagés

Le développeur a également examiné Minimax 2.5, Kimi K2.5, les nouveaux modèles Qwen 3.5 et Gemini 3 Flash, mais note que la plupart sont relativement chers et pas meilleurs pour leur cas d'utilisation spécifique.

📖 Read the full source: r/LocalLLaMA

Développeur envisage de passer de DeepSeek à Grok pour son agent d'IA financière

Problèmes de performance de l'agent IA financier et changement potentiel

Problèmes de performance actuels du modèle

Exigences de l'application

Envisager Grok 4.1 Fast Reasoning

Autres modèles envisagés

👀 See Also

Comment utiliser Claude AI comme partenaire de réflexion plutôt que comme moteur de recherche

Réduction de 30 % des coûts des agents IA grâce à la surveillance des comportements et aux modifications de configuration

La version modifiée de vLLM 0.17.0 fonctionne sur Tesla P40 pour la transcription en temps réel avec Qwen3 ASR 1.7B.

Agent IA Gérant une Opération E-commerce Complète : Rapport Interne