DeepSeek V3.2 vs Grok 4.1: TTFT, Token-Rate & Wechsel-Gründe

Leistungsprobleme bei Finanz-KI-Agenten und möglicher Wechsel

Ein Entwickler hat eine Finanz-KI-Web-App in FastAPI/Python erstellt, die ähnlich wie Perplexity funktioniert, aber für Aktien. Die Anwendung führt eine parallele Pipeline aus, bevor die LLM Anfragen verarbeitet, einschließlich Live-Aktienkursen von mehreren Finanz-APIs, Live-Websuche über Finanz-Such-APIs und Daten zum Ergebnis-Kalender. Dieser strukturierte Kontext wird in den System-Prompt eingefügt, wobei das Modell nur das Schlussfolgern und Formatieren übernimmt, während Fakten von APIs kommen, was Halluzinationsraten für diesen Anwendungsfall weniger relevant macht.

Aktuelle Modell-Leistungsprobleme

Der Entwickler verwendet derzeit DeepSeek V3.2 Reasoning und berichtet von erheblichen Leistungsproblemen:

TTFT (Time to First Token): ~70 Sekunden
Ausgabegeschwindigkeit: ~25 Token pro Sekunde
Streaming-Erlebnis wird als "schrecklich" beschrieben
Stream-Start-Timeout auf 75 Sekunden gesetzt, um ständige Timeouts zu vermeiden

Anwendungsanforderungen

Der Finanz-KI-Agent hat zwei Hauptfunktionen:

Chat-Stream: Perplexity-artige Finanzanalyse mit Inline-Quellenangaben
Trade-Check-Stream: Handels-Coach, der GO/NO-GO/WAIT mit Einstieg, Stop-Loss, Ziel und R:R-Verhältnis ausgibt

Modellanforderungen umfassen:

Schnelle Leistung mit niedriger TTFT und hoher Token/Sekunde für Streaming-UX
Geringe Kosten für ein kleines Projekt
Intelligent genug für mehrstufige Handelslogik
Gute Anweisungsbefolgung für strenge Ausgabeformate in Trade-Checks

Grok 4.1 Fast Reasoning in Erwägung

Der Entwickler erwägt den Wechsel zu Grok 4.1 Fast Reasoning basierend auf diesen Vergleichen:

TTFT: ~15 Sekunden (vs. DeepSeek's ~70s)
Ausgabegeschwindigkeit: ~75 Token pro Sekunde (vs. DeepSeek's ~25 t/s)
AA-Intelligenz-Score: 64 vs. DeepSeek's 57
Eingabekosten: $0,20 vs. $0,28 pro Million Token

Andere erwogene Modelle

Der Entwickler hat sich auch Minimax 2.5, Kimi K2.5, neue Qwen 3.5-Modelle und Gemini 3 Flash angesehen, stellt aber fest, dass die meisten relativ teuer und für ihren spezifischen Anwendungsfall nicht besser sind.

📖 Read the full source: r/LocalLLaMA