DeepSeek V3.2 vs Grok 4.1: ¿Cuál elegir para IA financiera?

Problemas de Rendimiento del Agente de IA Financiera y Posible Cambio

Un desarrollador ha construido una aplicación web de IA financiera en FastAPI/Python que funciona de manera similar a Perplexity pero para acciones. La aplicación ejecuta un pipeline paralelo antes de que el LLM procese las consultas, incluyendo cotizaciones de acciones en vivo de varias API financieras, búsqueda web en vivo de API de búsqueda financiera y datos del calendario de ganancias. Todo este contexto estructurado se inyecta en el prompt del sistema, con el modelo manejando solo el razonamiento y el formato mientras los hechos provienen de las API, lo que hace que las tasas de alucinación sean menos relevantes para este caso de uso.

Problemas de Rendimiento del Modelo Actual

El desarrollador está utilizando actualmente DeepSeek V3.2 Reasoning e informa problemas de rendimiento significativos:

TTFT (Tiempo para el Primer Token): ~70 segundos
Velocidad de salida: ~25 tokens por segundo
La experiencia de streaming se describe como "terrible"
El tiempo de espera para el inicio del streaming se establece en 75 segundos para evitar tiempos de espera constantes

Requisitos de la Aplicación

El agente de IA financiera tiene dos características principales:

Chat en streaming: Análisis financiero al estilo Perplexity con citas de fuentes en línea
Verificación de operaciones en streaming: Entrenador de operaciones que emite GO/NO-GO/WAIT con entrada, stop-loss, objetivo y relación R:R

Los requisitos del modelo incluyen:

Rendimiento rápido con TTFT bajo y alta velocidad de tokens por segundo para la experiencia de usuario en streaming
Bajo costo para un proyecto pequeño
Suficientemente inteligente para el razonamiento de operaciones de múltiples pasos
Buena capacidad para seguir instrucciones para formatos de salida estrictos en las verificaciones de operaciones

Considerando Grok 4.1 Fast Reasoning

El desarrollador está considerando cambiar a Grok 4.1 Fast Reasoning basándose en estas comparaciones:

TTFT: ~15 segundos (vs ~70s de DeepSeek)
Velocidad de salida: ~75 tokens por segundo (vs ~25 t/s de DeepSeek)
Puntuación de inteligencia AA: 64 vs 57 de DeepSeek
Costo de entrada: $0.20 vs $0.28 por millón de tokens

Otros Modelos Considerados

El desarrollador también ha considerado Minimax 2.5, Kimi K2.5, los nuevos modelos Qwen 3.5 y Gemini 3 Flash, pero señala que la mayoría son relativamente caros y no mejores para su caso de uso específico.

📖 Leer la fuente completa: r/LocalLLaMA

Desarrollador Considera Cambiar de DeepSeek a Grok para Agente de IA Financiera

Problemas de Rendimiento del Agente de IA Financiera y Posible Cambio

Problemas de Rendimiento del Modelo Actual

Requisitos de la Aplicación

Considerando Grok 4.1 Fast Reasoning

Otros Modelos Considerados

👀 Ver también

Los usuarios informan que utilizan Claude Cowork para la preparación de impuestos con declaraciones complejas por trabajo independiente.

Construyendo un Jefe de Gabinete de IA Personal en Telegram: 7 Problemas y Detalles de la Pila Tecnológica

Construyendo un Sistema de Investigación Agéntico con Claude Code: Una Implementación Práctica

Equipos de Agentes de Código Claude Construyen Productos Micro SaaS en 4 Horas Usando Bóvedas de Obsidian