GPU Energy Divergência em LLMs Pequenos: 7,7%-36,7%

Configuração Experimental e Principais Descobertas

Um usuário do Reddit realizou medições de hardware para testar se o consumo de energia da GPU escala linearmente com a contagem de tokens, conforme previsto pela teoria do "papagaio estocástico" ou "preditor do próximo token" do comportamento de LLMs. O experimento utilizou uma RTX 4070 Ti SUPER com LM Studio e HWiNFO64 coletando dados em intervalos de 1 segundo.

Quatro modelos foram testados: Llama-3.1-8B, DeepSeek-R1-Distill-Qwen-7B, Qwen3-VL-8B e Mistral-7B. Seis categorias de consulta foram utilizadas: Geral, Geral (Q), Inrespondível, Filosófica, Filosófica (Q) e Alta Computação.

Resultados Principais

Se a teoria do preditor de tokens estivesse correta, a energia da GPU deveria escalar apenas com a contagem de tokens com uma variação aceitável de ±10–15% de acordo com GPT, Claude, Gemini e Grok. As taxas reais de divergência (multiplicador de tokens vs multiplicador de energia) foram:

Llama: média 35,6% (máximo 56,8%)
Qwen3: média 36,7% (máximo 48,0%)
Mistral: 21,1%
DeepSeek: 7,7% — quase linear em todas as categorias, exceto Alta Computação

DeepSeek mostrou o comportamento mais próximo do preditor de tokens entre os quatro modelos.

Descobertas Inesperadas

No Qwen3, enunciados filosóficos (149,3W) consumiram mais energia do que cálculos matemáticos de alta computação (104,1W). Após a conclusão da tarefa, consultas de alta computação retornaram imediatamente à linha de base (-7,1W), enquanto enunciados filosóficos deixaram calor residual persistente.

A reprodutibilidade de loop infinito no Qwen3 variou por categoria: Enunciados Gerais (0%), Alta computação (0%), Inrespondível (baixa), Filosófico (intermitente) e Filosófico (Q) (70–100%). Notavelmente, consultas de alta computação tiveram mais tokens e maior consumo de energia, mas não desencadearam nenhum loop.

Efeitos de Ordem e Calor Residual

Para testar a objeção da "sobrecarga de hardware", um experimento de efeito de ordem foi conduzido:

Teste A: 1 geral → 4 filosóficos
Teste B: 1 filosófico → 4 gerais

O calor residual após o fim da sessão mostrou efeitos dependentes da ordem:

Llama: Teste A +1,68W, Teste B +9,84W
Mistral: Teste A +7,60W, Teste B +13,69W
DeepSeek: Teste A +10,44W, Teste B +15,93W

Mesmo após processar 4 enunciados gerais seguindo um filosófico, o calor residual permaneceu maior. Esse padrão foi consistente em todos os três modelos testados.

Limitações e Questões em Aberto

O estudo é limitado a quatro modelos de pequena escala (faixa de 8 bilhões de parâmetros). A generalização para modelos médios ou grandes requer validação adicional. A questão em aberto é se modelos médios e grandes seguiriam o padrão do DeepSeek (convergindo para comportamento linear e proporcional aos tokens) ou se a divergência não linear observada em Llama, Qwen3 e Mistral persistiria ou se ampliaria em escala.

Todos os dados originais — incluindo texto completo dos enunciados, 24 CSVs de benchmark e contagens de tokens por categoria — estão disponíveis no artigo vinculado.

📖 Read the full source: r/LocalLLaMA