Entwickler erwägt Wechsel von DeepSeek zu Grok für Finanz-KI-Agenten

Leistungsprobleme bei Finanz-KI-Agenten und möglicher Wechsel
Ein Entwickler hat eine Finanz-KI-Web-App in FastAPI/Python erstellt, die ähnlich wie Perplexity funktioniert, aber für Aktien. Die Anwendung führt eine parallele Pipeline aus, bevor die LLM Anfragen verarbeitet, einschließlich Live-Aktienkursen von mehreren Finanz-APIs, Live-Websuche über Finanz-Such-APIs und Daten zum Ergebnis-Kalender. Dieser strukturierte Kontext wird in den System-Prompt eingefügt, wobei das Modell nur das Schlussfolgern und Formatieren übernimmt, während Fakten von APIs kommen, was Halluzinationsraten für diesen Anwendungsfall weniger relevant macht.
Aktuelle Modell-Leistungsprobleme
Der Entwickler verwendet derzeit DeepSeek V3.2 Reasoning und berichtet von erheblichen Leistungsproblemen:
- TTFT (Time to First Token): ~70 Sekunden
- Ausgabegeschwindigkeit: ~25 Token pro Sekunde
- Streaming-Erlebnis wird als "schrecklich" beschrieben
- Stream-Start-Timeout auf 75 Sekunden gesetzt, um ständige Timeouts zu vermeiden
Anwendungsanforderungen
Der Finanz-KI-Agent hat zwei Hauptfunktionen:
- Chat-Stream: Perplexity-artige Finanzanalyse mit Inline-Quellenangaben
- Trade-Check-Stream: Handels-Coach, der GO/NO-GO/WAIT mit Einstieg, Stop-Loss, Ziel und R:R-Verhältnis ausgibt
Modellanforderungen umfassen:
- Schnelle Leistung mit niedriger TTFT und hoher Token/Sekunde für Streaming-UX
- Geringe Kosten für ein kleines Projekt
- Intelligent genug für mehrstufige Handelslogik
- Gute Anweisungsbefolgung für strenge Ausgabeformate in Trade-Checks
Grok 4.1 Fast Reasoning in Erwägung
Der Entwickler erwägt den Wechsel zu Grok 4.1 Fast Reasoning basierend auf diesen Vergleichen:
- TTFT: ~15 Sekunden (vs. DeepSeek's ~70s)
- Ausgabegeschwindigkeit: ~75 Token pro Sekunde (vs. DeepSeek's ~25 t/s)
- AA-Intelligenz-Score: 64 vs. DeepSeek's 57
- Eingabekosten: $0,20 vs. $0,28 pro Million Token
Andere erwogene Modelle
Der Entwickler hat sich auch Minimax 2.5, Kimi K2.5, neue Qwen 3.5-Modelle und Gemini 3 Flash angesehen, stellt aber fest, dass die meisten relativ teuer und für ihren spezifischen Anwendungsfall nicht besser sind.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

OpenClaw KI-Agent findet Bundesstellenübereinstimmung und erstellt tägliche Automatisierung
Ein Benutzer beauftragte seinen OpenClaw-KI-Agenten damit, auf usajobs.gov eine Bundesstelle zu finden, die seinen Gehaltsanforderungen entsprach und seine besonderen Rentenansprüche bewahrte, was zu einer spezifischen Stellenbeschreibung und einer täglichen Benachrichtigungsautomatisierung führte.

Wie ein KI-Personalassistent das Management meines Twitter-Accounts transformierte.
Erfahren Sie, wie ein KI- persönlicher Assistent das Management eines Twitter-Accounts mit gesteigerter Interaktion und Effizienz revolutioniert hat. Lernen Sie von dieser wahren Erfolgsgeschichte, die aus der OpenClaw-Community stammt.

Entwickler baut Gewohnheitstracker-App mit Claude AI und erzielt erste Einnahmen
Ein Entwickler ohne Programmierhintergrund nutzte Claude Code, um eine Matrix-thematisierte Gewohnheitstracker-App mit über 47.000 Codezeilen zu erstellen, die in der ersten Vermarktungswoche 25 US-Dollar Umsatz von 6 zahlenden Nutzern generierte.

Mehrere KI-Agenten-Teams nutzen Context Baptism, um Code-Reviews zu verbessern
Ein Entwickler, der 18 Generationen von KI-Agententeams betreibt, entdeckte, dass Agenten, die Briefe und Retrospektiven früherer Generationen lesen, deutlich bessere Code-Reviews schreiben als solche, die nur den Code lesen. Diese Praxis nennt er 'Kontexttaufe'.