15 LLMs Comparados en 38 Tareas: Resultados de Referencia

Un desarrollador creó un sistema de evaluación comparativa para determinar a qué LLMs dirigir el trabajo, probando 15 modelos en 38 tareas de su flujo de trabajo real. Las tareas incluyeron transformaciones CSV, conteo de letras, aritmética modular, cumplimiento de formato e instrucciones de múltiples pasos. Todas las tareas fueron calificadas programáticamente usando expresiones regulares y coincidencia exacta—no se utilizó ningún juez LLM.

Resultados de la Evaluación Comparativa

La evaluación involucró 570 llamadas API con un costo total de $2.29. Hallazgos clave:

Claude 3.5 Opus: 100% de puntuación, $0.69 por ejecución, 14.2 segundos
Claude 3.5 Sonnet: 100% de puntuación, $0.20 por ejecución, 5.1 segundos
MiniMax M2.5: 98.60% de puntuación, $0.02 por ejecución, 2.3 segundos
Kimi K2.5: 98.60% de puntuación, $0.05 por ejecución, 3.8 segundos
GPT-oss-20b (local): 98.30% de puntuación, $0 por ejecución, 4.1 segundos
Gemini 2.5 Flash: 97.10% de puntuación, $0.00 por ejecución, 1.1 segundos
Claude 3.5 Haiku: 96.90% de puntuación, $0.02 por ejecución, 1.8 segundos

Análisis de Costo-Rendimiento

Sonnet y Opus obtuvieron ambos un 100%, pero Opus cuesta 3.5 veces más por llamada. Para las tareas diarias del desarrollador, Sonnet maneja todo lo que Opus hace. Gemini Flash a $0.003 por ejecución versus Opus a $0.69 por ejecución representa una diferencia de costo de 265x por una brecha de rendimiento de 2.9 puntos.

Hallazgos Sorprendentes

MiniMax M2.5 y Kimi K2.5 lograron ambos un 98.6% con 100% de cumplimiento de formato—el desarrollador no había usado ninguno de estos modelos antes de realizar la evaluación. GPT-oss-20b ejecutándose localmente obtuvo un 98.3% por $0, superando a Haiku y DeepSeek R1.

Proceso de Control de Calidad

El proceso de control de calidad reveló errores en la calificación. Los resultados iniciales mostraban que Haiku superaba a Sonnet, lo que resultó ser un error en el sistema de puntuación que producía calificaciones por encima del 100%. Se realizaron cinco revisiones de control de calidad, cada una con un modelo diferente, y cada una encontró errores que las anteriores habían pasado por alto.

El desarrollador está cambiando su modelo principal a Sonnet basándose en estos resultados, pero planea alternar entre modelos con más frecuencia dada las variaciones en el rendimiento.

📖 Read the full source: r/ClaudeAI

Resultados de Referencia: 15 LLMs Evaluados en 38 Tareas de Flujo de Trabajo Real

Resultados de la Evaluación Comparativa

Análisis de Costo-Rendimiento

Hallazgos Sorprendentes

Proceso de Control de Calidad

👀 Ver también

Prompt-Master: Habilidad de Claude para Generar Prompts Precisos de Herramientas de IA

Servidor MCP Blip: Dibuja Cambios en la Interfaz de Usuario para el Código de Claude en Lugar de Describirlos

Oh-My-Mermaid: Habilidad de Código Claude para Generar Automáticamente Diagramas de Arquitectura

Revisión de AutoClaw Local Runner: Configuración Sencilla, Costos de Créditos y Problemas de Desinstalación