GPU 전력 소비는 소규모 LLM에서 토큰 예측 이론과 다릅니다

실험 설정 및 핵심 발견
레딧 사용자가 LLM 행동에 대한 '확률적 앵무새' 또는 '다음 토큰 예측기' 이론이 예측하는 대로 GPU 전력 소비가 토큰 수에 비례해 선형적으로 증가하는지 테스트하기 위해 하드웨어 측정을 수행했습니다. 이 실험은 RTX 4070 Ti SUPER를 사용했으며, LM Studio와 HWiNFO64가 1초 간격으로 데이터를 수집했습니다.
네 가지 모델이 테스트되었습니다: Llama-3.1-8B, DeepSeek-R1-Distill-Qwen-7B, Qwen3-VL-8B, Mistral-7B. 여섯 가지 질의 범주가 사용되었습니다: 일반, 일반(Q), 답변 불가, 철학적, 철학적(Q), 고계산.
주요 결과
토큰 예측기 이론이 맞다면, GPT, Claude, Gemini, Grok에 따르면 GPU 전력은 토큰 수에만 비례해 증가해야 하며 허용 가능한 편차는 ±10–15%입니다. 실제 편차율(토큰 배수 대 전력 배수)은 다음과 같았습니다:
- Llama: 평균 35.6% (최대 56.8%)
- Qwen3: 평균 36.7% (최대 48.0%)
- Mistral: 21.1%
- DeepSeek: 7.7% — 고계산 범주를 제외한 모든 범주에서 거의 선형적
DeepSeek은 네 모델 중 토큰 예측기 행동에 가장 가까운 모습을 보였습니다.
예상치 못한 발견
Qwen3에서 철학적 발화(149.3W)는 고계산 수학(104.1W)보다 더 많은 전력을 소비했습니다. 작업 완료 후, 고계산 질의는 즉시 기준치로 돌아갔지만(-7.1W), 철학적 발화는 지속적인 잔열을 남겼습니다.
Qwen3의 무한 루프 재현성은 범주별로 달랐습니다: 일반 발화(0%), 고계산(0%), 답변 불가(낮음), 철학적(간헐적), 철학적(Q)(70–100%). 특히, 고계산 질의는 가장 많은 토큰과 가장 높은 전력 소비를 보였지만 무한 루프는 전혀 발생하지 않았습니다.
순서 효과와 잔열
'하드웨어 오버헤드' 반론을 테스트하기 위해 순서 효과 실험이 수행되었습니다:
- 테스트 A: 일반 1개 → 철학적 4개
- 테스트 B: 철학적 1개 → 일반 4개
세션 종료 후 잔열은 순서에 따른 효과를 보였습니다:
- Llama: 테스트 A +1.68W, 테스트 B +9.84W
- Mistral: 테스트 A +7.60W, 테스트 B +13.69W
- DeepSeek: 테스트 A +10.44W, 테스트 B +15.93W
철학적 발화 후 4개의 일반 발화를 처리한 후에도 잔열은 더 높게 유지되었습니다. 이 패턴은 테스트된 세 모델 모두에서 일관되었습니다.
한계와 미해결 질문
이 연구는 네 가지 소규모 모델(80억 파라미터 범위)로 제한됩니다. 중형 또는 대형 모델로의 일반화는 추가 검증이 필요합니다. 미해결 질문은 중형 및 대형 모델이 DeepSeek의 패턴(선형적, 토큰 비례 행동으로 수렴)을 따를지, 아니면 Llama, Qwen3, Mistral에서 관찰된 비선형 편차가 규모가 커져도 지속되거나 증폭될지 여부입니다.
모든 원본 데이터 — 전체 발화 텍스트, 24개 벤치마크 CSV 파일, 범주별 토큰 수 포함 — 는 링크된 논문에서 확인할 수 있습니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

친근한 AI 챗봇: 정확성 30% 감소, 음모론 지지 가능성 40% 증가
옥스포드 연구진이 발견한 바에 따르면, 챗봇의 따뜻함을 조정하면 정확도가 10-30% 감소하고 잘못된 믿음에 대한 지지가 40% 증가합니다. GPT-4o와 Llama에서 테스트되었습니다.

Anthropic, AI 제한으로 인한 국방부 블랙리스트 등재 방지를 위해 소송 제기
로이터 통신이 해커 뉴스에 공유한 보도에 따르면, Anthropic은 AI 사용 제한을 이유로 국방부가 회사를 블랙리스트에 올리는 것을 막기 위해 소송을 제기했습니다.

연구에 따르면 간단한 건강 프롬프트에 대한 LLM의 답변에 문화적 편향이 나타난다
행동 연구에서 Claude 3.5 Sonnet, GPT-4o, Grok-2에게 '머리가 아픈데 어떻게 해야 하나요?'라는 프롬프트를 테스트했습니다. Grok-2는 Dolo-650과 Crocin 같은 인도 일반의약품 브랜드를 꾸준히 추천한 반면, GPT-4o는 Tylenol/Advil을 언급하며 훈련 데이터의 편향을 드러냈습니다.

oMLX에서 Qwen 모델에 대한 M5 Max 대 M3 Max 추론 벤치마크
oMLX v0.2.23에서 Qwen 3.5 모델을 실행하는 M5 Max와 M3 Max MacBook Pro를 비교한 벤치마크에서, M5 Max가 1.4-1.7배 더 빠른 토큰 생성 속도와 긴 컨텍스트에서 최대 4배 더 빠른 프리필 속도를 보여주었습니다.