4.4-кратный разброс цен на инференс Llama 3.1 70B у провайдеров

Анализ стоимости инференса для ИИ-агентов программирования

Анализ цен на инференс у различных провайдеров выявляет значительные различия в стоимости для идентичных выходных данных моделей, с разбросом до 4.4x для стандартных моделей и до 30x для рассуждающих моделей.

Ключевые данные о ценах из источника

Для Llama 3.1 70B Instruct (та же модель, те же веса):

DeepInfra: $0.20 / $0.27 за миллион токенов
Hyperbolic: $0.40 / $0.40 за миллион токенов
Groq: $0.59 / $0.79 за миллион токенов
Fireworks: $0.70 / $0.70 за миллион токенов
Together: $0.88 / $0.88 за миллион токенов

Это представляет собой 4.4-кратную разницу между самым дешёвым (DeepInfra) и самым дорогим (Together) провайдерами для абсолютно одинакового API-вызова.

Влияние на стоимость использования

Для одного агента, обрабатывающего примерно 10 миллионов токенов в день:

DeepInfra: ~$876/год
Together: ~$3212/год

Одинаковый результат, одинаковый API-вызов, но разница в $2336 ежегодно.

Разброс цен на рассуждающие модели

Анализ распространяется на рассуждающие модели с ещё более агрессивной разницей в ценах:

DeepSeek R1 (Hyperbolic): ~$2 за 1 миллион выходных токенов
OpenAI o1: ~$60 за 1 миллион выходных токенов

Это представляет собой примерно 30-кратный разброс между провайдерами.

Наблюдения за рынком

Источник отмечает, что цены меняются сильнее, чем ожидалось, от недели к неделе у разных провайдеров, что указывает на отсутствие устоявшейся «рыночной цены» на услуги инференса. Автор в настоящее время отслеживает цены для: DeepInfra, Hyperbolic, Groq, Fireworks, Together, OpenAI, Anthropic и Akash.

Соображения для разработчиков

Анализ поднимает практические вопросы для разработчиков, использующих ИИ-агентов программирования:

Привязка к одному провайдеру против маршрутизации на основе цены
Стоит ли активно отслеживать цены или игнорировать их колебания
Каких дополнительных провайдеров следует включить в мониторинг

📖 Read the full source: r/LocalLLaMA

Анализ цен на инференс показывает 4,4-кратный разброс стоимости одной и той же модели у разных провайдеров.

Анализ стоимости инференса для ИИ-агентов программирования

Ключевые данные о ценах из источника

Влияние на стоимость использования

Разброс цен на рассуждающие модели

Наблюдения за рынком

Соображения для разработчиков

👀 Смотрите также

Открытый стандарт записей выполнения агентов: аргументы в пользу единой схемы журнала

История OpenClaw: от Moltbot к open source революции в AI

Заголовок статьи: libibverbs от Apple скрывает символы GPUDirect RDMA; Zero-Copy Metal Buffer RDMA работает на macOS

Марк Цукерберг разрабатывает ИИ-агента для помощи генеральным директорам.