El Consumo de Energía de la GPU Se Desvía de la Teoría del Predictor de Tokens en LLMs Pequeños

✍️ OpenClawRadar📅 Publicado: 11 de marzo de 2026🔗 Source
El Consumo de Energía de la GPU Se Desvía de la Teoría del Predictor de Tokens en LLMs Pequeños
Ad

Configuración Experimental y Hallazgos Principales

Un usuario de Reddit realizó mediciones de hardware para probar si el consumo de energía de la GPU escala linealmente con el número de tokens, como predice la teoría del "loro estocástico" o "predictor del siguiente token" sobre el comportamiento de los LLM. El experimento utilizó una RTX 4070 Ti SUPER con LM Studio y HWiNFO64 recopilando datos a intervalos de 1 segundo.

Se probaron cuatro modelos: Llama-3.1-8B, DeepSeek-R1-Distill-Qwen-7B, Qwen3-VL-8B y Mistral-7B. Se utilizaron seis categorías de consultas: General, General (Q), Incontestable, Filosófica, Filosófica (Q) y de Alto Cálculo.

Resultados Clave

Si la teoría del predictor de tokens fuera correcta, la energía de la GPU debería escalar solo con el número de tokens con una variación aceptable de ±10–15% según GPT, Claude, Gemini y Grok. Las tasas reales de divergencia (multiplicador de tokens vs multiplicador de energía) fueron:

  • Llama: promedio 35,6% (máximo 56,8%)
  • Qwen3: promedio 36,7% (máximo 48,0%)
  • Mistral: 21,1%
  • DeepSeek: 7,7% — casi lineal en todas las categorías excepto Alto Cálculo

DeepSeek mostró el comportamiento más cercano al predictor de tokens de los cuatro modelos.

Hallazgos Inesperados

En Qwen3, las expresiones filosóficas (149,3W) consumieron más energía que las matemáticas de alto cálculo (104,1W). Después de completar la tarea, las consultas de alto cálculo volvieron a la línea base inmediatamente (-7,1W), mientras que las expresiones filosóficas dejaron calor residual persistente.

La reproducibilidad del bucle infinito en Qwen3 varió según la categoría: expresiones generales (0%), alto cálculo (0%), incontestables (baja), filosóficas (intermitente) y filosóficas (Q) (70–100%). Notablemente, las consultas de alto cálculo tuvieron más tokens y el mayor consumo de energía, pero no desencadenaron bucles.

Ad

Efectos del Orden y Calor Residual

Para probar la objeción de "sobrecarga de hardware", se realizó un experimento de efecto de orden:

  • Prueba A: 1 general → 4 filosóficas
  • Prueba B: 1 filosófica → 4 generales

El calor residual después del final de la sesión mostró efectos dependientes del orden:

  • Llama: Prueba A +1,68W, Prueba B +9,84W
  • Mistral: Prueba A +7,60W, Prueba B +13,69W
  • DeepSeek: Prueba A +10,44W, Prueba B +15,93W

Incluso después de procesar 4 expresiones generales tras una filosófica, el calor residual se mantuvo más alto. Este patrón fue consistente en los tres modelos probados.

Limitaciones y Preguntas Abiertas

El estudio se limita a cuatro modelos de pequeña escala (rango de 8B parámetros). La generalización a modelos medianos o grandes requiere validación adicional. La pregunta abierta es si los modelos medianos y grandes seguirían el patrón de DeepSeek (convergiendo hacia un comportamiento lineal y proporcional a los tokens) o si la divergencia no lineal observada en Llama, Qwen3 y Mistral persistiría o se amplificaría a mayor escala.

Todos los datos originales —incluyendo el texto completo de las expresiones, 24 archivos CSV de referencia y recuentos de tokens por categoría— están disponibles en el artículo vinculado.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

La empresa de IA de Medvi, valorada en $1.8 mil millones, enfrenta escrutinio por sus afirmaciones sobre problemas legales y éticos.
Noticias

La empresa de IA de Medvi, valorada en $1.8 mil millones, enfrenta escrutinio por sus afirmaciones sobre problemas legales y éticos.

Gary Marcus critica la historia viral de Medvi, una supuesta empresa de IA valorada en $1.8 mil millones construida por una sola persona en dos meses, destacando demandas colectivas por violaciones de spam y preguntas sobre la presentación de informes de ingresos y el cumplimiento normativo.

OpenClawRadar
El Desarrollo de LibreOffice Online se Reanuda Tras la Votación de la Comunidad
Noticias

El Desarrollo de LibreOffice Online se Reanuda Tras la Votación de la Comunidad

The Document Foundation ha reanudado el trabajo en LibreOffice Online después de que una votación comunitaria anuló la congelación de 2022. TDF reabrirá el repositorio para contribuciones, pero no alojará servidores; en su lugar, proporcionará herramientas que los usuarios puedan alojar por sí mismos.

OpenClawRadar
Claude Code v2.1.163: Fijación de Versión, Lista de Plugins, Mejoras en Hooks y Correcciones Críticas de Errores
Noticias

Claude Code v2.1.163: Fijación de Versión, Lista de Plugins, Mejoras en Hooks y Correcciones Críticas de Errores

Claude Code v2.1.163 añade requiredMinimumVersion/requiredMaximumVersion en ajustes gestionados, el comando /plugin list, mejoras en el contexto de hooks y correcciones para cuelgues de claude -p, EEXIST en Windows y la regresión de Bazel/EDR.

OpenClawRadar
Comparación de Referencia de los Modelos Qwen 3.5 con los Principales Modelos de IA
Noticias

Comparación de Referencia de los Modelos Qwen 3.5 con los Principales Modelos de IA

Un sitio web de comparación de puntos de referencia incluye puntuaciones verificadas e infografías comparativas para los modelos Qwen 3.5 (122B, 35B, 27B, 397B) frente a modelos como GPT-5.2, Claude 4.5 Opus, Gemini-3 Pro y otros.

OpenClawRadar