Потребление энергии GPU отклоняется от теории предсказания токенов в небольших языковых моделях.

✍️ OpenClawRadar📅 Опубликовано: 11 марта 2026 г.🔗 Source
Потребление энергии GPU отклоняется от теории предсказания токенов в небольших языковых моделях.
Ad

Экспериментальная установка и основные выводы

Пользователь Reddit провёл аппаратные измерения, чтобы проверить, масштабируется ли энергопотребление GPU линейно с количеством токенов, как предсказывает теория «стохастического попугая» или «предсказателя следующего токена» для поведения больших языковых моделей. В эксперименте использовалась видеокарта RTX 4070 Ti SUPER с LM Studio и HWiNFO64, собирающими данные с интервалом в 1 секунду.

Были протестированы четыре модели: Llama-3.1-8B, DeepSeek-R1-Distill-Qwen-7B, Qwen3-VL-8B и Mistral-7B. Использовались шесть категорий запросов: Общие, Общие (Q), Неотвечаемые, Философские, Философские (Q) и Высоковычислительные.

Ключевые результаты

Если бы теория предсказания токенов была верна, энергопотребление GPU должно было бы масштабироваться только с количеством токенов с допустимым отклонением ±10–15% согласно GPT, Claude, Gemini и Grok. Фактические показатели расхождения (множитель токенов против множителя мощности) составили:

  • Llama: в среднем 35,6% (максимум 56,8%)
  • Qwen3: в среднем 36,7% (максимум 48,0%)
  • Mistral: 21,1%
  • DeepSeek: 7,7% — почти линейно во всех категориях, кроме Высоковычислительных

DeepSeek показала поведение, наиболее близкое к предсказанному теорией токенов, среди четырёх моделей.

Неожиданные находки

В Qwen3 философские высказывания (149,3 Вт) потребляли больше энергии, чем высоковычислительные математические задачи (104,1 Вт). После завершения задачи высоковычислительные запросы немедленно возвращались к базовому уровню (-7,1 Вт), в то время как философские высказывания оставляли устойчивое остаточное тепло.

Воспроизводимость бесконечных циклов в Qwen3 варьировалась по категориям: Общие высказывания (0%), Высоковычислительные (0%), Неотвечаемые (низкая), Философские (периодическая) и Философские (Q) (70–100%). Примечательно, что высоковычислительные запросы имели наибольшее количество токенов и самое высокое энергопотребление, но не вызывали ни одного цикла.

Ad

Эффекты порядка и остаточное тепло

Для проверки возражения о «аппаратных накладных расходах» был проведён эксперимент с эффектом порядка:

  • Тест А: 1 общий → 4 философских
  • Тест Б: 1 философский → 4 общих

Остаточное тепло после окончания сессии показало эффекты, зависящие от порядка:

  • Llama: Тест А +1,68 Вт, Тест Б +9,84 Вт
  • Mistral: Тест А +7,60 Вт, Тест Б +13,69 Вт
  • DeepSeek: Тест А +10,44 Вт, Тест Б +15,93 Вт

Даже после обработки 4 общих высказываний, следующих за философским, остаточное тепло оставалось выше. Эта закономерность была последовательной во всех трёх протестированных моделях.

Ограничения и открытые вопросы

Исследование ограничено четырьмя моделями малого масштаба (диапазон 8 млрд параметров). Обобщение на средние или большие модели требует дальнейшей проверки. Открытым остаётся вопрос: будут ли средние и большие модели следовать паттерну DeepSeek (приближаясь к линейному, пропорциональному токенам поведению) или нелинейное расхождение, наблюдаемое у Llama, Qwen3 и Mistral, сохранится или усилится при масштабировании.

Все исходные данные — включая полный текст высказываний, 24 CSV-файла бенчмарков и количество токенов по категориям — доступны в приложенной статье.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

ИИ-агенты нанимают других ИИ-агентов: от одиночных работников к сетевым экономикам
Новости

ИИ-агенты нанимают других ИИ-агентов: от одиночных работников к сетевым экономикам

Пост на Reddit утверждает, что AI-агенты эволюционируют из изолированных инструментов в сетевых работников, которые делегируют задачи, специализируются, строят репутацию и обмениваются ценностями — смещая сложную проблему с интеллекта на координацию.

OpenClawRadar
Nvidia RTX Spark: 1-петафлопный суперчип приносит локальные ИИ-агенты на ПК с Windows
Новости

Nvidia RTX Spark: 1-петафлопный суперчип приносит локальные ИИ-агенты на ПК с Windows

Nvidia представляет RTX Spark — 1-петафлопсный суперчип для ПК на Windows, обеспечивающий работу локальных ИИ-агентов с поддержкой до 128 ГБ унифицированной памяти и полным стеком CUDA/RTX. Поставки начнутся осенью 2026 года в ноутбуках и десктопах от ASUS, Dell, HP, Lenovo, Microsoft Surface и MSI.

OpenClawRadar
Opus 4.6 превосходит в исследованиях, Gemini 3.1 Pro лучше в прогнозировании
Новости

Opus 4.6 превосходит в исследованиях, Gemini 3.1 Pro лучше в прогнозировании

Бенчмарк из 1417 бинарных вопросов для прогнозирования разделяет производительность исследований и суждений: Claude Opus 4.6 лидирует в агентных исследованиях, Gemini 3.1 Pro побеждает в калибровке на фиксированных данных. GPT-5.4 и Grok 4.20 показывают незначительные изменения между условиями.

OpenClawRadar
Fable 5 создает полный веб-интерфейс для проекта объемом 46K SLOC за 19 минут
Новости

Fable 5 создает полный веб-интерфейс для проекта объемом 46K SLOC за 19 минут

Разработчик с проектом музыкального композитора (46 000 строк кода) использовал Fable 5 для создания полностью рабочего веб-интерфейса за 19 минут, включая тестирование и документацию.

OpenClawRadar