Resultados de Referencia: 15 LLMs Evaluados en 38 Tareas de Flujo de Trabajo Real

Un desarrollador creó un sistema de evaluación comparativa para determinar a qué LLMs dirigir el trabajo, probando 15 modelos en 38 tareas de su flujo de trabajo real. Las tareas incluyeron transformaciones CSV, conteo de letras, aritmética modular, cumplimiento de formato e instrucciones de múltiples pasos. Todas las tareas fueron calificadas programáticamente usando expresiones regulares y coincidencia exacta—no se utilizó ningún juez LLM.
Resultados de la Evaluación Comparativa
La evaluación involucró 570 llamadas API con un costo total de $2.29. Hallazgos clave:
- Claude 3.5 Opus: 100% de puntuación, $0.69 por ejecución, 14.2 segundos
- Claude 3.5 Sonnet: 100% de puntuación, $0.20 por ejecución, 5.1 segundos
- MiniMax M2.5: 98.60% de puntuación, $0.02 por ejecución, 2.3 segundos
- Kimi K2.5: 98.60% de puntuación, $0.05 por ejecución, 3.8 segundos
- GPT-oss-20b (local): 98.30% de puntuación, $0 por ejecución, 4.1 segundos
- Gemini 2.5 Flash: 97.10% de puntuación, $0.00 por ejecución, 1.1 segundos
- Claude 3.5 Haiku: 96.90% de puntuación, $0.02 por ejecución, 1.8 segundos
Análisis de Costo-Rendimiento
Sonnet y Opus obtuvieron ambos un 100%, pero Opus cuesta 3.5 veces más por llamada. Para las tareas diarias del desarrollador, Sonnet maneja todo lo que Opus hace. Gemini Flash a $0.003 por ejecución versus Opus a $0.69 por ejecución representa una diferencia de costo de 265x por una brecha de rendimiento de 2.9 puntos.
Hallazgos Sorprendentes
MiniMax M2.5 y Kimi K2.5 lograron ambos un 98.6% con 100% de cumplimiento de formato—el desarrollador no había usado ninguno de estos modelos antes de realizar la evaluación. GPT-oss-20b ejecutándose localmente obtuvo un 98.3% por $0, superando a Haiku y DeepSeek R1.
Proceso de Control de Calidad
El proceso de control de calidad reveló errores en la calificación. Los resultados iniciales mostraban que Haiku superaba a Sonnet, lo que resultó ser un error en el sistema de puntuación que producía calificaciones por encima del 100%. Se realizaron cinco revisiones de control de calidad, cada una con un modelo diferente, y cada una encontró errores que las anteriores habían pasado por alto.
El desarrollador está cambiando su modelo principal a Sonnet basándose en estos resultados, pero planea alternar entre modelos con más frecuencia dada las variaciones en el rendimiento.
📖 Read the full source: r/ClaudeAI
👀 Ver también

Kit de inicio Next.js de código abierto añade barreras de seguridad e instrucciones para agentes para evitar contenido generado por IA de baja calidad
Un nuevo boilerplate de Next.js incluye autenticación, base de datos, CI, pruebas e instrucciones para Claude Code listas para usar, dirigido a desarrolladores que usan agentes de codificación de IA para crear aplicaciones de producción más rápido.

Sistema de Estudio con Contexto Diseñado para Claude Code Actúa como Tutor Persistente
Un desarrollador creó un sistema de estudio utilizando Claude Code que rastrea el progreso entre sesiones, evalúa la comprensión, trabaja con ejercicios y se adapta a los estilos de aprendizaje. El sistema utiliza archivos markdown estructurados para moldear el comportamiento del agente e incluye herramientas para extraer páginas de libros de texto de archivos PDF.

Evaluación de cuantización de Qwen 3.6 27B: Q4_K_M supera a Q8_0 en compensaciones prácticas
Evaluó Qwen 3.6 27B en BF16, Q4_K_M y Q8_0 GGUF quants en HumanEval, HellaSwag y BFCL. Q4_K_M ofrece puntuaciones casi de BF16 con un 48% menos de RAM, 1.45x de velocidad y un 68.8% de reducción del tamaño del archivo.

Plugin de Spectyra para OpenClaw: Optimización de Costos de IA en Tiempo Real Mediante el Análisis del Flujo Completo de Solicitudes
El plugin Spectyra reduce los costos de API de IA al detectar en tiempo real desperdicios ocultos como llamadas repetidas, contexto excesivo y uso inadecuado de modelos costosos.