Resultados de Referencia: 15 LLMs Evaluados en 38 Tareas de Flujo de Trabajo Real

✍️ OpenClawRadar📅 Publicado: 10 de marzo de 2026🔗 Source
Resultados de Referencia: 15 LLMs Evaluados en 38 Tareas de Flujo de Trabajo Real
Ad

Un desarrollador creó un sistema de evaluación comparativa para determinar a qué LLMs dirigir el trabajo, probando 15 modelos en 38 tareas de su flujo de trabajo real. Las tareas incluyeron transformaciones CSV, conteo de letras, aritmética modular, cumplimiento de formato e instrucciones de múltiples pasos. Todas las tareas fueron calificadas programáticamente usando expresiones regulares y coincidencia exacta—no se utilizó ningún juez LLM.

Resultados de la Evaluación Comparativa

La evaluación involucró 570 llamadas API con un costo total de $2.29. Hallazgos clave:

  • Claude 3.5 Opus: 100% de puntuación, $0.69 por ejecución, 14.2 segundos
  • Claude 3.5 Sonnet: 100% de puntuación, $0.20 por ejecución, 5.1 segundos
  • MiniMax M2.5: 98.60% de puntuación, $0.02 por ejecución, 2.3 segundos
  • Kimi K2.5: 98.60% de puntuación, $0.05 por ejecución, 3.8 segundos
  • GPT-oss-20b (local): 98.30% de puntuación, $0 por ejecución, 4.1 segundos
  • Gemini 2.5 Flash: 97.10% de puntuación, $0.00 por ejecución, 1.1 segundos
  • Claude 3.5 Haiku: 96.90% de puntuación, $0.02 por ejecución, 1.8 segundos

Análisis de Costo-Rendimiento

Sonnet y Opus obtuvieron ambos un 100%, pero Opus cuesta 3.5 veces más por llamada. Para las tareas diarias del desarrollador, Sonnet maneja todo lo que Opus hace. Gemini Flash a $0.003 por ejecución versus Opus a $0.69 por ejecución representa una diferencia de costo de 265x por una brecha de rendimiento de 2.9 puntos.

Ad

Hallazgos Sorprendentes

MiniMax M2.5 y Kimi K2.5 lograron ambos un 98.6% con 100% de cumplimiento de formato—el desarrollador no había usado ninguno de estos modelos antes de realizar la evaluación. GPT-oss-20b ejecutándose localmente obtuvo un 98.3% por $0, superando a Haiku y DeepSeek R1.

Proceso de Control de Calidad

El proceso de control de calidad reveló errores en la calificación. Los resultados iniciales mostraban que Haiku superaba a Sonnet, lo que resultó ser un error en el sistema de puntuación que producía calificaciones por encima del 100%. Se realizaron cinco revisiones de control de calidad, cada una con un modelo diferente, y cada una encontró errores que las anteriores habían pasado por alto.

El desarrollador está cambiando su modelo principal a Sonnet basándose en estos resultados, pero planea alternar entre modelos con más frecuencia dada las variaciones en el rendimiento.

📖 Read the full source: r/ClaudeAI

Ad

👀 Ver también

Prompt-Master: Habilidad de Claude para Generar Prompts Precisos de Herramientas de IA
Herramientas

Prompt-Master: Habilidad de Claude para Generar Prompts Precisos de Herramientas de IA

Prompt-Master es una habilidad gratuita de Claude que escribe prompts precisos para varias herramientas de IA, incluyendo Cursor, Claude Code, GPT, Midjourney, Kling y Eleven Labs. La herramienta ha alcanzado más de 600 estrellas en GitHub y procesa más de 4000 visitas.

OpenClawRadar
Servidor MCP Blip: Dibuja Cambios en la Interfaz de Usuario para el Código de Claude en Lugar de Describirlos
Herramientas

Servidor MCP Blip: Dibuja Cambios en la Interfaz de Usuario para el Código de Claude en Lugar de Describirlos

Blip es un servidor MCP para Claude Code que reemplaza las descripciones verbales de cambios en la interfaz de usuario con anotaciones visuales. Dibujas directamente en tu aplicación en ejecución, y Claude escribe el código correspondiente basado en la captura de pantalla anotada.

OpenClawRadar
Oh-My-Mermaid: Habilidad de Código Claude para Generar Automáticamente Diagramas de Arquitectura
Herramientas

Oh-My-Mermaid: Habilidad de Código Claude para Generar Automáticamente Diagramas de Arquitectura

Oh-My-Mermaid es una habilidad de Claude Code que analiza bases de código y genera automáticamente diagramas de arquitectura Mermaid y documentación. Se instala mediante npm y se usa con el comando /omm-scan en Claude Code.

OpenClawRadar
Revisión de AutoClaw Local Runner: Configuración Sencilla, Costos de Créditos y Problemas de Desinstalación
Herramientas

Revisión de AutoClaw Local Runner: Configuración Sencilla, Costos de Créditos y Problemas de Desinstalación

Un usuario probó AutoClaw, un ejecutor local para OpenClaw/AutoGLM de Zai_org, encontrando que la configuración fue fluida pero enfrentó un alto consumo de créditos, fallas en las tareas y una persistencia preocupante después de la desinstalación, incluyendo entradas en el registro y credenciales en texto plano.

OpenClawRadar