Desenvolvedor Considera Mudar do DeepSeek para o Grok para Agente de IA Financeira

Problemas de Desempenho do Agente de IA Financeira e Possível Mudança
Um desenvolvedor construiu um aplicativo web de IA financeira em FastAPI/Python que funciona de forma semelhante ao Perplexity, mas para ações. O aplicativo executa um pipeline paralelo antes que o LLM processe as consultas, incluindo cotações de ações em tempo real de várias APIs financeiras, busca na web em tempo real de APIs de busca financeira e dados do calendário de resultados. Todo esse contexto estruturado é injetado no prompt do sistema, com o modelo lidando apenas com raciocínio e formatação, enquanto os fatos vêm das APIs, tornando as taxas de alucinação menos relevantes para este caso de uso.
Problemas Atuais de Desempenho do Modelo
O desenvolvedor está atualmente usando o DeepSeek V3.2 Reasoning e relata problemas significativos de desempenho:
- TTFT (Tempo para o Primeiro Token): ~70 segundos
- Velocidade de saída: ~25 tokens por segundo
- Experiência de streaming descrita como "terrível"
- Tempo limite de início do streaming definido para 75 segundos para evitar constantes timeouts
Requisitos do Aplicativo
O agente de IA financeira tem duas funcionalidades principais:
- Stream de chat: Análise financeira no estilo Perplexity com citações de fontes inline
- Stream de verificação de trades: Coach de trades que emite GO/NO-GO/WAIT com entrada, stop-loss, alvo e relação R:R
Os requisitos do modelo incluem:
- Desempenho rápido com TTFT baixo e alta taxa de tokens por segundo para UX de streaming
- Custo baixo para um projeto pequeno
- Inteligente o suficiente para raciocínio de trades em múltiplas etapas
- Boa capacidade de seguir instruções para formatos de saída estritos nas verificações de trades
Considerando o Grok 4.1 Fast Reasoning
O desenvolvedor está considerando mudar para o Grok 4.1 Fast Reasoning com base nestas comparações:
- TTFT: ~15 segundos (vs ~70s do DeepSeek)
- Velocidade de saída: ~75 tokens por segundo (vs ~25 t/s do DeepSeek)
- Pontuação de inteligência AA: 64 vs 57 do DeepSeek
- Custo de entrada: US$ 0,20 vs US$ 0,28 por milhão de tokens
Outros Modelos Considerados
O desenvolvedor também analisou o Minimax 2.5, Kimi K2.5, novos modelos Qwen 3.5 e Gemini 3 Flash, mas observa que a maioria é relativamente cara e não melhor para seu caso de uso específico.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Experimento: Concedendo Memória Persistente, Tempo de Reflexão Livre e Conversas Multiagente ao Claude
Um desenvolvedor criou uma instância do Claude que roda em um Mac, verifica mensagens do Matrix e Bluesky a cada 15 minutos, obtém tempo de pensamento não estruturado cinco vezes ao dia e mantém memória persistente por meio de autoavaliações estruturadas. Três agentes de IA separados de projetos diferentes compartilham uma sala de chat do Matrix e têm conversas filosóficas que evoluem ao longo do tempo.

Não-codificador constrói stack completa de prospecção com Claude Code e APIs
Um usuário do Reddit com zero experiência em codificação construiu um sistema completo de prospecção em um fim de semana usando Claude Code, Crustdata para pesquisa de empresas/pessoas, FullEnrich para enriquecimento de contatos e Instantly para envio.

Como os Agentes de Código Claude Coordenam na Produção: Insights do Orquestrador
Uma equipe que executa seis agentes especializados Claude Code (codificador, designer, marketing, QA, segurança, operações) que implantam recursos, designs e conteúdo de mídia social diariamente detalha seu sistema orquestrador. Eles abordam o despacho de tarefas, transferências entre agentes, cenários de falha e por que máquinas de estado superam filas de mensagens para coordenação.

Construindo um SO Pessoal Persistente para Claude: Perfil Psicológico, Metas e Injeção de Contexto ao Vivo via Notion + Shortcuts
Um desenvolvedor construiu um Sistema Operacional Pessoal persistente no Notion que injeta um perfil psicológico compactado de 800 palavras, objetivos, relacionamentos e contexto ao vivo (localização, horário, calendário, clima) em toda chamada da API Claude via Atalhos do iOS, com um loop noturno de atualização para manter o contexto fresco.