DeepSeek vs Grok 4.1: 70s TTFT vs 15s para IA Financeira

Problemas de Desempenho do Agente de IA Financeira e Possível Mudança

Um desenvolvedor construiu um aplicativo web de IA financeira em FastAPI/Python que funciona de forma semelhante ao Perplexity, mas para ações. O aplicativo executa um pipeline paralelo antes que o LLM processe as consultas, incluindo cotações de ações em tempo real de várias APIs financeiras, busca na web em tempo real de APIs de busca financeira e dados do calendário de resultados. Todo esse contexto estruturado é injetado no prompt do sistema, com o modelo lidando apenas com raciocínio e formatação, enquanto os fatos vêm das APIs, tornando as taxas de alucinação menos relevantes para este caso de uso.

Problemas Atuais de Desempenho do Modelo

O desenvolvedor está atualmente usando o DeepSeek V3.2 Reasoning e relata problemas significativos de desempenho:

TTFT (Tempo para o Primeiro Token): ~70 segundos
Velocidade de saída: ~25 tokens por segundo
Experiência de streaming descrita como "terrível"
Tempo limite de início do streaming definido para 75 segundos para evitar constantes timeouts

Requisitos do Aplicativo

O agente de IA financeira tem duas funcionalidades principais:

Stream de chat: Análise financeira no estilo Perplexity com citações de fontes inline
Stream de verificação de trades: Coach de trades que emite GO/NO-GO/WAIT com entrada, stop-loss, alvo e relação R:R

Os requisitos do modelo incluem:

Desempenho rápido com TTFT baixo e alta taxa de tokens por segundo para UX de streaming
Custo baixo para um projeto pequeno
Inteligente o suficiente para raciocínio de trades em múltiplas etapas
Boa capacidade de seguir instruções para formatos de saída estritos nas verificações de trades

Considerando o Grok 4.1 Fast Reasoning

O desenvolvedor está considerando mudar para o Grok 4.1 Fast Reasoning com base nestas comparações:

TTFT: ~15 segundos (vs ~70s do DeepSeek)
Velocidade de saída: ~75 tokens por segundo (vs ~25 t/s do DeepSeek)
Pontuação de inteligência AA: 64 vs 57 do DeepSeek
Custo de entrada: US$ 0,20 vs US$ 0,28 por milhão de tokens

Outros Modelos Considerados

O desenvolvedor também analisou o Minimax 2.5, Kimi K2.5, novos modelos Qwen 3.5 e Gemini 3 Flash, mas observa que a maioria é relativamente cara e não melhor para seu caso de uso específico.

📖 Read the full source: r/LocalLLaMA

Desenvolvedor Considera Mudar do DeepSeek para o Grok para Agente de IA Financeira

Problemas de Desempenho do Agente de IA Financeira e Possível Mudança

Problemas Atuais de Desempenho do Modelo

Requisitos do Aplicativo

Considerando o Grok 4.1 Fast Reasoning

Outros Modelos Considerados

👀 See Also

Experimento: Concedendo Memória Persistente, Tempo de Reflexão Livre e Conversas Multiagente ao Claude

Não-codificador constrói stack completa de prospecção com Claude Code e APIs

Como os Agentes de Código Claude Coordenam na Produção: Insights do Orquestrador

Construindo um SO Pessoal Persistente para Claude: Perfil Psicológico, Metas e Injeção de Contexto ao Vivo via Notion + Shortcuts