O Consumo de Energia da GPU Desvia-se da Teoria do Preditivo de Tokens em Pequenos LLMs

Configuração Experimental e Principais Descobertas
Um usuário do Reddit realizou medições de hardware para testar se o consumo de energia da GPU escala linearmente com a contagem de tokens, conforme previsto pela teoria do "papagaio estocástico" ou "preditor do próximo token" do comportamento de LLMs. O experimento utilizou uma RTX 4070 Ti SUPER com LM Studio e HWiNFO64 coletando dados em intervalos de 1 segundo.
Quatro modelos foram testados: Llama-3.1-8B, DeepSeek-R1-Distill-Qwen-7B, Qwen3-VL-8B e Mistral-7B. Seis categorias de consulta foram utilizadas: Geral, Geral (Q), Inrespondível, Filosófica, Filosófica (Q) e Alta Computação.
Resultados Principais
Se a teoria do preditor de tokens estivesse correta, a energia da GPU deveria escalar apenas com a contagem de tokens com uma variação aceitável de ±10–15% de acordo com GPT, Claude, Gemini e Grok. As taxas reais de divergência (multiplicador de tokens vs multiplicador de energia) foram:
- Llama: média 35,6% (máximo 56,8%)
- Qwen3: média 36,7% (máximo 48,0%)
- Mistral: 21,1%
- DeepSeek: 7,7% — quase linear em todas as categorias, exceto Alta Computação
DeepSeek mostrou o comportamento mais próximo do preditor de tokens entre os quatro modelos.
Descobertas Inesperadas
No Qwen3, enunciados filosóficos (149,3W) consumiram mais energia do que cálculos matemáticos de alta computação (104,1W). Após a conclusão da tarefa, consultas de alta computação retornaram imediatamente à linha de base (-7,1W), enquanto enunciados filosóficos deixaram calor residual persistente.
A reprodutibilidade de loop infinito no Qwen3 variou por categoria: Enunciados Gerais (0%), Alta computação (0%), Inrespondível (baixa), Filosófico (intermitente) e Filosófico (Q) (70–100%). Notavelmente, consultas de alta computação tiveram mais tokens e maior consumo de energia, mas não desencadearam nenhum loop.
Efeitos de Ordem e Calor Residual
Para testar a objeção da "sobrecarga de hardware", um experimento de efeito de ordem foi conduzido:
- Teste A: 1 geral → 4 filosóficos
- Teste B: 1 filosófico → 4 gerais
O calor residual após o fim da sessão mostrou efeitos dependentes da ordem:
- Llama: Teste A +1,68W, Teste B +9,84W
- Mistral: Teste A +7,60W, Teste B +13,69W
- DeepSeek: Teste A +10,44W, Teste B +15,93W
Mesmo após processar 4 enunciados gerais seguindo um filosófico, o calor residual permaneceu maior. Esse padrão foi consistente em todos os três modelos testados.
Limitações e Questões em Aberto
O estudo é limitado a quatro modelos de pequena escala (faixa de 8 bilhões de parâmetros). A generalização para modelos médios ou grandes requer validação adicional. A questão em aberto é se modelos médios e grandes seguiriam o padrão do DeepSeek (convergindo para comportamento linear e proporcional aos tokens) ou se a divergência não linear observada em Llama, Qwen3 e Mistral persistiria ou se ampliaria em escala.
Todos os dados originais — incluindo texto completo dos enunciados, 24 CSVs de benchmark e contagens de tokens por categoria — estão disponíveis no artigo vinculado.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Compreendendo a Ponderação de Diretrizes em LLMs: Por que o Claude às vezes ignora comandos
Uma investigação do Reddit revela como o Claude pode ignorar instruções explícitas como 'não faça correspondência de padrões' ao gerar revisões de código, demonstrando que as diretrizes de LLMs são contexto ponderado, não restrições.

Spotify Lança Selos 'Verificados' para Identificar Artistas Humanos vs. Geração por IA
O Spotify adiciona um selo verde 'Verificado pelo Spotify' aos perfis de artistas que atendem a critérios como contas sociais vinculadas, datas de shows ou mercadorias, com o objetivo de distinguir artistas humanos de gerados por IA.

YC-Bench: Testes de Benchmark Avaliam LLMs como CEOs de Startups, GLM-5 Demonstra Forte Custo-Eficiência
Pesquisadores criaram o YC-Bench, um benchmark onde LLMs atuam como CEOs de startups simuladas ao longo de um ano, gerenciando funcionários, contratos e folha de pagamento. O GLM-5 alcançou US$ 1,21 milhão em fundos finais médios a US$ 7,62 por execução, desempenhando-se dentro de 5% do Claude Opus 4.6, que custou US$ 86 por execução.

Claude Code v2.1.118 adiciona o modo visual do Vim, temas personalizados e melhorias no MCP
Claude Code v2.1.118 introduz o modo visual do Vim com operadores de seleção, gerenciamento de temas personalizados via comando /theme e várias correções para autenticação OAuth do MCP e resolução de dependências de plugins.