Divergencia GPU: Consumo Energía vs Tokens en LLMs Pequeños

Configuración Experimental y Hallazgos Principales

Un usuario de Reddit realizó mediciones de hardware para probar si el consumo de energía de la GPU escala linealmente con el número de tokens, como predice la teoría del "loro estocástico" o "predictor del siguiente token" sobre el comportamiento de los LLM. El experimento utilizó una RTX 4070 Ti SUPER con LM Studio y HWiNFO64 recopilando datos a intervalos de 1 segundo.

Se probaron cuatro modelos: Llama-3.1-8B, DeepSeek-R1-Distill-Qwen-7B, Qwen3-VL-8B y Mistral-7B. Se utilizaron seis categorías de consultas: General, General (Q), Incontestable, Filosófica, Filosófica (Q) y de Alto Cálculo.

Resultados Clave

Si la teoría del predictor de tokens fuera correcta, la energía de la GPU debería escalar solo con el número de tokens con una variación aceptable de ±10–15% según GPT, Claude, Gemini y Grok. Las tasas reales de divergencia (multiplicador de tokens vs multiplicador de energía) fueron:

Llama: promedio 35,6% (máximo 56,8%)
Qwen3: promedio 36,7% (máximo 48,0%)
Mistral: 21,1%
DeepSeek: 7,7% — casi lineal en todas las categorías excepto Alto Cálculo

DeepSeek mostró el comportamiento más cercano al predictor de tokens de los cuatro modelos.

Hallazgos Inesperados

En Qwen3, las expresiones filosóficas (149,3W) consumieron más energía que las matemáticas de alto cálculo (104,1W). Después de completar la tarea, las consultas de alto cálculo volvieron a la línea base inmediatamente (-7,1W), mientras que las expresiones filosóficas dejaron calor residual persistente.

La reproducibilidad del bucle infinito en Qwen3 varió según la categoría: expresiones generales (0%), alto cálculo (0%), incontestables (baja), filosóficas (intermitente) y filosóficas (Q) (70–100%). Notablemente, las consultas de alto cálculo tuvieron más tokens y el mayor consumo de energía, pero no desencadenaron bucles.

Efectos del Orden y Calor Residual

Para probar la objeción de "sobrecarga de hardware", se realizó un experimento de efecto de orden:

Prueba A: 1 general → 4 filosóficas
Prueba B: 1 filosófica → 4 generales

El calor residual después del final de la sesión mostró efectos dependientes del orden:

Llama: Prueba A +1,68W, Prueba B +9,84W
Mistral: Prueba A +7,60W, Prueba B +13,69W
DeepSeek: Prueba A +10,44W, Prueba B +15,93W

Incluso después de procesar 4 expresiones generales tras una filosófica, el calor residual se mantuvo más alto. Este patrón fue consistente en los tres modelos probados.

Limitaciones y Preguntas Abiertas

El estudio se limita a cuatro modelos de pequeña escala (rango de 8B parámetros). La generalización a modelos medianos o grandes requiere validación adicional. La pregunta abierta es si los modelos medianos y grandes seguirían el patrón de DeepSeek (convergiendo hacia un comportamiento lineal y proporcional a los tokens) o si la divergencia no lineal observada en Llama, Qwen3 y Mistral persistiría o se amplificaría a mayor escala.

Todos los datos originales —incluyendo el texto completo de las expresiones, 24 archivos CSV de referencia y recuentos de tokens por categoría— están disponibles en el artículo vinculado.

📖 Read the full source: r/LocalLLaMA