Gemma3:4B supera a LLMs grandes en benchmark chat teléfono-hogar

Resultados de evaluación comparativa de chat de teléfono a hogar

Una evaluación comparativa reciente evaluó 8 LLMs locales para aplicaciones de chat de teléfono a hogar donde la inferencia se ejecuta en una computadora doméstica. La prueba involucró 640 evaluaciones (8 modelos × 8 conjuntos de datos × 10 muestras) en hardware Mac mini M4 Pro 24Gb.

Fórmula de aptitud y ponderación

La fórmula de aptitud compuesta ponderó tres factores: 50% experiencia de usuario en chat, 30% velocidad y 20% calidad de formato corto. Esta ponderación prioriza la experiencia del usuario para aplicaciones móviles donde la latencia es lo más importante.

Hallazgos clave

Gemma3:4B ganó con una puntuación de aptitud compuesta de 88.7 a pesar de ser el modelo más pequeño evaluado
Logró el TTFT más bajo (11.2s), el mayor rendimiento (89.3 tok/s) y las temperaturas más frías (45°C)
Modelos más grandes como GPT-OSS:20B aprobaron el 70% de las tareas pero ocuparon el 6° lugar debido a un TTFT promedio de 25.4s
El rendimiento térmico varió significativamente: Qwen3:14B alcanzó un máximo de 83°C, DeepSeek-R1:14B a 81°C
Magistral:24B fue excluido de la clasificación final después de desencadenar bucles de tiempo de espera y alcanzar 97°C de temperatura de GPU

Por qué los modelos más pequeños tuvieron mejor rendimiento

La evaluación comparativa reveló que para aplicaciones de chat telefónico, una respuesta más rápida del primer token (TTFT) y una menor carga térmica importan más que la precisión bruta. Un modelo que obtiene 77.5% de precisión pero requiere 25s de espera para el primer token pierde frente a uno que responde con 72.5% pero responde en 11s. La brecha térmica es significativa para la confiabilidad y longevidad del hardware personal.

Análisis independiente

Un análisis independiente utilizando Claude en el mismo conjunto de datos de 640 evaluaciones ponderó la confiabilidad y TTFT de manera más agresiva y llegó a un orden ligeramente diferente de los 4 primeros, confirmando que la ponderación de KPI es una elección más que una verdad absoluta.

Consideraciones de caso de uso

El autor señala que para diferentes casos de uso como programación o escritura de formato largo, la fórmula de ponderación cambiaría por completo, priorizando la calidad sobre la velocidad y la experiencia de usuario en chat.

📖 Leer la fuente completa: r/LocalLLaMA

El benchmark muestra que un modelo más pequeño de 4B supera a los LLMs más grandes en aplicaciones de chat de teléfono a hogar.

Resultados de evaluación comparativa de chat de teléfono a hogar

Fórmula de aptitud y ponderación

Hallazgos clave

Por qué los modelos más pequeños tuvieron mejor rendimiento

Análisis independiente

Consideraciones de caso de uso

👀 Ver también

Snowflake despide a personal de documentación tras entrenar a una IA como reemplazo.

DeepSeek API de pago utiliza indicaciones para entrenamiento: lo que los usuarios de OpenClaw deben saber

Alto funcionario gubernamental de IA desconoce los LLM locales: relato de un desarrollador

El 70% de los desarrolladores dice que el código de IA tiene más vulnerabilidades; el 30% lo envía de todos modos — Encuesta de Checkmarx