Desenvolvedor Considera Mudar do DeepSeek para o Grok para Agente de IA Financeira

✍️ OpenClawRadar📅 Publicado: March 19, 2026🔗 Source
Desenvolvedor Considera Mudar do DeepSeek para o Grok para Agente de IA Financeira
Ad

Problemas de Desempenho do Agente de IA Financeira e Possível Mudança

Um desenvolvedor construiu um aplicativo web de IA financeira em FastAPI/Python que funciona de forma semelhante ao Perplexity, mas para ações. O aplicativo executa um pipeline paralelo antes que o LLM processe as consultas, incluindo cotações de ações em tempo real de várias APIs financeiras, busca na web em tempo real de APIs de busca financeira e dados do calendário de resultados. Todo esse contexto estruturado é injetado no prompt do sistema, com o modelo lidando apenas com raciocínio e formatação, enquanto os fatos vêm das APIs, tornando as taxas de alucinação menos relevantes para este caso de uso.

Problemas Atuais de Desempenho do Modelo

O desenvolvedor está atualmente usando o DeepSeek V3.2 Reasoning e relata problemas significativos de desempenho:

  • TTFT (Tempo para o Primeiro Token): ~70 segundos
  • Velocidade de saída: ~25 tokens por segundo
  • Experiência de streaming descrita como "terrível"
  • Tempo limite de início do streaming definido para 75 segundos para evitar constantes timeouts
Ad

Requisitos do Aplicativo

O agente de IA financeira tem duas funcionalidades principais:

  • Stream de chat: Análise financeira no estilo Perplexity com citações de fontes inline
  • Stream de verificação de trades: Coach de trades que emite GO/NO-GO/WAIT com entrada, stop-loss, alvo e relação R:R

Os requisitos do modelo incluem:

  • Desempenho rápido com TTFT baixo e alta taxa de tokens por segundo para UX de streaming
  • Custo baixo para um projeto pequeno
  • Inteligente o suficiente para raciocínio de trades em múltiplas etapas
  • Boa capacidade de seguir instruções para formatos de saída estritos nas verificações de trades

Considerando o Grok 4.1 Fast Reasoning

O desenvolvedor está considerando mudar para o Grok 4.1 Fast Reasoning com base nestas comparações:

  • TTFT: ~15 segundos (vs ~70s do DeepSeek)
  • Velocidade de saída: ~75 tokens por segundo (vs ~25 t/s do DeepSeek)
  • Pontuação de inteligência AA: 64 vs 57 do DeepSeek
  • Custo de entrada: US$ 0,20 vs US$ 0,28 por milhão de tokens

Outros Modelos Considerados

O desenvolvedor também analisou o Minimax 2.5, Kimi K2.5, novos modelos Qwen 3.5 e Gemini 3 Flash, mas observa que a maioria é relativamente cara e não melhor para seu caso de uso específico.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Experimento: Concedendo Memória Persistente, Tempo de Reflexão Livre e Conversas Multiagente ao Claude
Use Cases

Experimento: Concedendo Memória Persistente, Tempo de Reflexão Livre e Conversas Multiagente ao Claude

Um desenvolvedor criou uma instância do Claude que roda em um Mac, verifica mensagens do Matrix e Bluesky a cada 15 minutos, obtém tempo de pensamento não estruturado cinco vezes ao dia e mantém memória persistente por meio de autoavaliações estruturadas. Três agentes de IA separados de projetos diferentes compartilham uma sala de chat do Matrix e têm conversas filosóficas que evoluem ao longo do tempo.

OpenClawRadar
Não-codificador constrói stack completa de prospecção com Claude Code e APIs
Use Cases

Não-codificador constrói stack completa de prospecção com Claude Code e APIs

Um usuário do Reddit com zero experiência em codificação construiu um sistema completo de prospecção em um fim de semana usando Claude Code, Crustdata para pesquisa de empresas/pessoas, FullEnrich para enriquecimento de contatos e Instantly para envio.

OpenClawRadar
Como os Agentes de Código Claude Coordenam na Produção: Insights do Orquestrador
Use Cases

Como os Agentes de Código Claude Coordenam na Produção: Insights do Orquestrador

Uma equipe que executa seis agentes especializados Claude Code (codificador, designer, marketing, QA, segurança, operações) que implantam recursos, designs e conteúdo de mídia social diariamente detalha seu sistema orquestrador. Eles abordam o despacho de tarefas, transferências entre agentes, cenários de falha e por que máquinas de estado superam filas de mensagens para coordenação.

OpenClawRadar
Construindo um SO Pessoal Persistente para Claude: Perfil Psicológico, Metas e Injeção de Contexto ao Vivo via Notion + Shortcuts
Use Cases

Construindo um SO Pessoal Persistente para Claude: Perfil Psicológico, Metas e Injeção de Contexto ao Vivo via Notion + Shortcuts

Um desenvolvedor construiu um Sistema Operacional Pessoal persistente no Notion que injeta um perfil psicológico compactado de 800 palavras, objetivos, relacionamentos e contexto ao vivo (localização, horário, calendário, clima) em toda chamada da API Claude via Atalhos do iOS, com um loop noturno de atualização para manter o contexto fresco.

OpenClawRadar