LLM código abierto supera a Claude Opus 4.6 en trading: ranking completo

Un usuario de Reddit en r/LocalLLaMA realizó una prueba comparativa de 10 modelos de lenguaje grandes diferentes para evaluar su rendimiento en la generación de estrategias de trading. Los resultados desafían las suposiciones sobre las relaciones costo-rendimiento en los LLMs comerciales.

Metodología de prueba y modelos

El usuario lanzó 10 LLMs con el mismo mensaje: "crea la mejor estrategia de trading". Los modelos probados incluyeron:

Claude Opus 4.6
Gemini 3, 3.1 Pro y GPT-5.2
Gemini Flash 3, GPT-5-mini, Kimi K2.5 y Minimax 2.5

La prueba se ejecutó tres veces para verificar la consistencia de los resultados.

Hallazgos clave

Según la fuente:

Minimax 2.5 y Gemini 3.1 encabezaron la clasificación
Los modelos de Anthropic (incluyendo Opus 4.6) tuvieron un rendimiento "decepcionante" y no lograron entrar en el top 4
Claude Opus 4.6 costó 10 veces más que los modelos competidores
Los modelos de código abierto fueron mucho más lentos que los modelos de Anthropic y Google

El usuario notó escepticismo inicial sobre los resultados, afirmando: "Honestamente, no creí los resultados la primera vez que hice esto". Después de la verificación, concluyó: "Los resultados son legítimos".

Implicaciones prácticas

Para los desarrolladores que utilizan agentes de codificación con IA, esto sugiere que para ciertas tareas especializadas como la generación de estrategias de trading, los modelos de código abierto pueden ofrecer un mejor rendimiento a un costo significativamente menor. El principal compromiso señalado es la velocidad: los modelos de código abierto fueron descritos como "mucho más lentos" que las alternativas comerciales de Anthropic y Google.

La conclusión del usuario fue directa: "aparte de eso, no hay una gran razón para usar Opus o Sonnet para esta tarea".

📖 Read the full source: r/LocalLLaMA

Los LLM de código abierto superan a Claude Opus 4.6 en la generación de estrategias comerciales con un menor costo.

Metodología de prueba y modelos

Hallazgos clave

Implicaciones prácticas

👀 Ver también

TranslateGemma-12b: La revisión humana detecta el 71% de errores que pasan desapercibidos para las métricas automatizadas

Fable 5 gana en la detección de fraudes del mundo real: la familia Claude 4.x comparada con GPT-5.5

Taalas' HC1: Acelerando la Inferencia de IA con Silicio Personalizado

Granite 4.1: El modelo denso de 8B de IBM iguala al MoE de 32B en pruebas