El benchmark muestra que un modelo más pequeño de 4B supera a los LLMs más grandes en aplicaciones de chat de teléfono a hogar.

✍️ OpenClawRadar📅 Publicado: 20 de abril de 2026🔗 Source
El benchmark muestra que un modelo más pequeño de 4B supera a los LLMs más grandes en aplicaciones de chat de teléfono a hogar.
Ad

Resultados de evaluación comparativa de chat de teléfono a hogar

Una evaluación comparativa reciente evaluó 8 LLMs locales para aplicaciones de chat de teléfono a hogar donde la inferencia se ejecuta en una computadora doméstica. La prueba involucró 640 evaluaciones (8 modelos × 8 conjuntos de datos × 10 muestras) en hardware Mac mini M4 Pro 24Gb.

Fórmula de aptitud y ponderación

La fórmula de aptitud compuesta ponderó tres factores: 50% experiencia de usuario en chat, 30% velocidad y 20% calidad de formato corto. Esta ponderación prioriza la experiencia del usuario para aplicaciones móviles donde la latencia es lo más importante.

Hallazgos clave

  • Gemma3:4B ganó con una puntuación de aptitud compuesta de 88.7 a pesar de ser el modelo más pequeño evaluado
  • Logró el TTFT más bajo (11.2s), el mayor rendimiento (89.3 tok/s) y las temperaturas más frías (45°C)
  • Modelos más grandes como GPT-OSS:20B aprobaron el 70% de las tareas pero ocuparon el 6° lugar debido a un TTFT promedio de 25.4s
  • El rendimiento térmico varió significativamente: Qwen3:14B alcanzó un máximo de 83°C, DeepSeek-R1:14B a 81°C
  • Magistral:24B fue excluido de la clasificación final después de desencadenar bucles de tiempo de espera y alcanzar 97°C de temperatura de GPU
Ad

Por qué los modelos más pequeños tuvieron mejor rendimiento

La evaluación comparativa reveló que para aplicaciones de chat telefónico, una respuesta más rápida del primer token (TTFT) y una menor carga térmica importan más que la precisión bruta. Un modelo que obtiene 77.5% de precisión pero requiere 25s de espera para el primer token pierde frente a uno que responde con 72.5% pero responde en 11s. La brecha térmica es significativa para la confiabilidad y longevidad del hardware personal.

Análisis independiente

Un análisis independiente utilizando Claude en el mismo conjunto de datos de 640 evaluaciones ponderó la confiabilidad y TTFT de manera más agresiva y llegó a un orden ligeramente diferente de los 4 primeros, confirmando que la ponderación de KPI es una elección más que una verdad absoluta.

Consideraciones de caso de uso

El autor señala que para diferentes casos de uso como programación o escritura de formato largo, la fórmula de ponderación cambiaría por completo, priorizando la calidad sobre la velocidad y la experiencia de usuario en chat.

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Claude Managed Agents agrega soñar, resultados, orquestación multiagente y webhooks
Noticias

Claude Managed Agents agrega soñar, resultados, orquestación multiagente y webhooks

Soñar es un proceso programado de curación de la memoria que mejoró las tasas de finalización de tareas ~6x en las pruebas de Harvey. Los resultados, la orquestación multiagente y los webhooks ya están en beta pública en la plataforma Claude.

OpenClawRadar
La Plataforma de IA de Palantir Utilizada para el Rastreo de Ayuda a Gaza en el Centro de Coordinación Dirigido por EE. UU.
Noticias

La Plataforma de IA de Palantir Utilizada para el Rastreo de Ayuda a Gaza en el Centro de Coordinación Dirigido por EE. UU.

Palantir Technologies tiene un escritorio permanente en el Centro de Coordinación Civil-Militar liderado por Estados Unidos en el sur de Israel, proporcionando la arquitectura tecnológica para rastrear la entrega y distribución de ayuda a Gaza mediante vigilancia con drones e integración de datos.

OpenClawRadar
Se informa que el código fuente de Claude Code se filtró, revelando detalles de la arquitectura de agentes.
Noticias

Se informa que el código fuente de Claude Code se filtró, revelando detalles de la arquitectura de agentes.

El código fuente de Claude Code, el agente de codificación de IA de Anthropic, parece haber sido filtrado, conteniendo el repositorio completo con indicaciones del sistema, implementación del bucle del agente e infraestructura de llamadas a herramientas.

OpenClawRadar
Desarrollador cambia de Cursor Composer 2 y Kimi 2.6 a Qwen3.6:35b-a3b para cargas de trabajo empresariales
Noticias

Desarrollador cambia de Cursor Composer 2 y Kimi 2.6 a Qwen3.6:35b-a3b para cargas de trabajo empresariales

Un desarrollador informa que usa Qwen3.6:35b-a3b para su trabajo diario en un conjunto empresarial de 500-700k LOC, citando un mejor rendimiento que Kimi 2.6 y DeepSeek 4 Pro/Flash, con costos de ~$0.08/1M tokens en OpenRouter.

OpenClawRadar