GPU 전력 소비 vs 토큰 예측 이론: 80억 파라미터 LLM 실험

실험 설정 및 핵심 발견

레딧 사용자가 LLM 행동에 대한 '확률적 앵무새' 또는 '다음 토큰 예측기' 이론이 예측하는 대로 GPU 전력 소비가 토큰 수에 비례해 선형적으로 증가하는지 테스트하기 위해 하드웨어 측정을 수행했습니다. 이 실험은 RTX 4070 Ti SUPER를 사용했으며, LM Studio와 HWiNFO64가 1초 간격으로 데이터를 수집했습니다.

네 가지 모델이 테스트되었습니다: Llama-3.1-8B, DeepSeek-R1-Distill-Qwen-7B, Qwen3-VL-8B, Mistral-7B. 여섯 가지 질의 범주가 사용되었습니다: 일반, 일반(Q), 답변 불가, 철학적, 철학적(Q), 고계산.

주요 결과

토큰 예측기 이론이 맞다면, GPT, Claude, Gemini, Grok에 따르면 GPU 전력은 토큰 수에만 비례해 증가해야 하며 허용 가능한 편차는 ±10–15%입니다. 실제 편차율(토큰 배수 대 전력 배수)은 다음과 같았습니다:

Llama: 평균 35.6% (최대 56.8%)
Qwen3: 평균 36.7% (최대 48.0%)
Mistral: 21.1%
DeepSeek: 7.7% — 고계산 범주를 제외한 모든 범주에서 거의 선형적

DeepSeek은 네 모델 중 토큰 예측기 행동에 가장 가까운 모습을 보였습니다.

예상치 못한 발견

Qwen3에서 철학적 발화(149.3W)는 고계산 수학(104.1W)보다 더 많은 전력을 소비했습니다. 작업 완료 후, 고계산 질의는 즉시 기준치로 돌아갔지만(-7.1W), 철학적 발화는 지속적인 잔열을 남겼습니다.

Qwen3의 무한 루프 재현성은 범주별로 달랐습니다: 일반 발화(0%), 고계산(0%), 답변 불가(낮음), 철학적(간헐적), 철학적(Q)(70–100%). 특히, 고계산 질의는 가장 많은 토큰과 가장 높은 전력 소비를 보였지만 무한 루프는 전혀 발생하지 않았습니다.

순서 효과와 잔열

'하드웨어 오버헤드' 반론을 테스트하기 위해 순서 효과 실험이 수행되었습니다:

테스트 A: 일반 1개 → 철학적 4개
테스트 B: 철학적 1개 → 일반 4개

세션 종료 후 잔열은 순서에 따른 효과를 보였습니다:

Llama: 테스트 A +1.68W, 테스트 B +9.84W
Mistral: 테스트 A +7.60W, 테스트 B +13.69W
DeepSeek: 테스트 A +10.44W, 테스트 B +15.93W

철학적 발화 후 4개의 일반 발화를 처리한 후에도 잔열은 더 높게 유지되었습니다. 이 패턴은 테스트된 세 모델 모두에서 일관되었습니다.

한계와 미해결 질문

이 연구는 네 가지 소규모 모델(80억 파라미터 범위)로 제한됩니다. 중형 또는 대형 모델로의 일반화는 추가 검증이 필요합니다. 미해결 질문은 중형 및 대형 모델이 DeepSeek의 패턴(선형적, 토큰 비례 행동으로 수렴)을 따를지, 아니면 Llama, Qwen3, Mistral에서 관찰된 비선형 편차가 규모가 커져도 지속되거나 증폭될지 여부입니다.

모든 원본 데이터 — 전체 발화 텍스트, 24개 벤치마크 CSV 파일, 범주별 토큰 수 포함 — 는 링크된 논문에서 확인할 수 있습니다.

📖 Read the full source: r/LocalLLaMA

GPU 전력 소비는 소규모 LLM에서 토큰 예측 이론과 다릅니다

실험 설정 및 핵심 발견

주요 결과

예상치 못한 발견

순서 효과와 잔열

한계와 미해결 질문

👀 See Also

Transformer 언어 모델이 일반 게임보이 컬러에서 로컬로 실행되다

Claude-Code v2.1.105 릴리스: 워크트리 개선, 플러그인 모니터 및 UI 수정

Claude Opus 4.7 오류 증가: 상태 업데이트 및 예상 사항

Opus 4.7의 주의력 저하: 256k 컨텍스트에서 MRCR 점수 92%에서 59%로 하락