El Consumo de Energía de la GPU Se Desvía de la Teoría del Predictor de Tokens en LLMs Pequeños

Configuración Experimental y Hallazgos Principales
Un usuario de Reddit realizó mediciones de hardware para probar si el consumo de energía de la GPU escala linealmente con el número de tokens, como predice la teoría del "loro estocástico" o "predictor del siguiente token" sobre el comportamiento de los LLM. El experimento utilizó una RTX 4070 Ti SUPER con LM Studio y HWiNFO64 recopilando datos a intervalos de 1 segundo.
Se probaron cuatro modelos: Llama-3.1-8B, DeepSeek-R1-Distill-Qwen-7B, Qwen3-VL-8B y Mistral-7B. Se utilizaron seis categorías de consultas: General, General (Q), Incontestable, Filosófica, Filosófica (Q) y de Alto Cálculo.
Resultados Clave
Si la teoría del predictor de tokens fuera correcta, la energía de la GPU debería escalar solo con el número de tokens con una variación aceptable de ±10–15% según GPT, Claude, Gemini y Grok. Las tasas reales de divergencia (multiplicador de tokens vs multiplicador de energía) fueron:
- Llama: promedio 35,6% (máximo 56,8%)
- Qwen3: promedio 36,7% (máximo 48,0%)
- Mistral: 21,1%
- DeepSeek: 7,7% — casi lineal en todas las categorías excepto Alto Cálculo
DeepSeek mostró el comportamiento más cercano al predictor de tokens de los cuatro modelos.
Hallazgos Inesperados
En Qwen3, las expresiones filosóficas (149,3W) consumieron más energía que las matemáticas de alto cálculo (104,1W). Después de completar la tarea, las consultas de alto cálculo volvieron a la línea base inmediatamente (-7,1W), mientras que las expresiones filosóficas dejaron calor residual persistente.
La reproducibilidad del bucle infinito en Qwen3 varió según la categoría: expresiones generales (0%), alto cálculo (0%), incontestables (baja), filosóficas (intermitente) y filosóficas (Q) (70–100%). Notablemente, las consultas de alto cálculo tuvieron más tokens y el mayor consumo de energía, pero no desencadenaron bucles.
Efectos del Orden y Calor Residual
Para probar la objeción de "sobrecarga de hardware", se realizó un experimento de efecto de orden:
- Prueba A: 1 general → 4 filosóficas
- Prueba B: 1 filosófica → 4 generales
El calor residual después del final de la sesión mostró efectos dependientes del orden:
- Llama: Prueba A +1,68W, Prueba B +9,84W
- Mistral: Prueba A +7,60W, Prueba B +13,69W
- DeepSeek: Prueba A +10,44W, Prueba B +15,93W
Incluso después de procesar 4 expresiones generales tras una filosófica, el calor residual se mantuvo más alto. Este patrón fue consistente en los tres modelos probados.
Limitaciones y Preguntas Abiertas
El estudio se limita a cuatro modelos de pequeña escala (rango de 8B parámetros). La generalización a modelos medianos o grandes requiere validación adicional. La pregunta abierta es si los modelos medianos y grandes seguirían el patrón de DeepSeek (convergiendo hacia un comportamiento lineal y proporcional a los tokens) o si la divergencia no lineal observada en Llama, Qwen3 y Mistral persistiría o se amplificaría a mayor escala.
Todos los datos originales —incluyendo el texto completo de las expresiones, 24 archivos CSV de referencia y recuentos de tokens por categoría— están disponibles en el artículo vinculado.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Análisis de Claude sobre el debate Minimax y el vacío de mercado de Anthropic
Claude argumenta que MiniMax obtuvo legalmente los datos de entrenamiento al pagar por millones de llamadas a la API e identifica un vacío en la cartera de productos de Anthropic para un orquestador persistente y económico.

Granite 4.1: El modelo denso de 8B de IBM iguala al MoE de 32B en pruebas
El modelo denso Granite 4.1 8B de IBM iguala o supera al anterior modelo MoE 32B en ArenaHard, BFCL V3, GSM8K y más, gracias a la mejora en la calidad de los datos de entrenamiento.

Codificación de ambiente vs. Realidad de producción: Los pasivos no discutidos
El usuario de Reddit External_Bobcat8183 destaca la brecha entre los PoCs rápidos con "vibe coding" y los problemas reales de producción: autenticación, secretos, GDPR, limitación de velocidad, multiinquilino.

OpenClaw: Cuatro Problemas Críticos que los Desarrolladores Deben Conocer
Desde errores de paso de imágenes hasta adaptadores de canal muertos, visibilidad de archivos de bloqueo y falta de coordinación paralela: cuatro problemas que afectan a la producción del repositorio OpenClaw (366k estrellas).