LLM Cost Profiler: бесплатный инструмент отслеживания расходов на API

LLM Cost Profiler — это инструмент с открытым исходным кодом на Python, который отслеживает каждый API-вызов вашего кода к OpenAI и Anthropic, показывая, на что именно, где и почему вы тратите средства. Инструмент выявляет, какие задачи переоценены относительно их сложности, предоставляя конкретные данные для обоснования перехода на локальный инференс.

Ключевые особенности и выводы

Инструмент хранит всё в локальной SQLite и имеет лицензию MIT. Согласно источнику, он обнаружил несколько конкретных примеров неэффективных API-вызовов:

Классификатор, использующий GPT-4o и выводящий один из 5 ярлыков — задача, с которой легко справляется любая качественная локальная модель на 7B. Стоимость: ~$89/неделя на API-вызовах.
Тысячи дублирующих вызовов одного и того же промпта — кэширование отсутствует. Локальный инференс с кэшированием сделал бы это практически бесплатным.
Суммаризатор, где 34% вызовов были повторными из-за ошибок формата. Хорошо настроенная локальная модель с ограниченной генерацией устраняет весь этот класс потерь.

Автор отмечает, что этот инструмент даёт командам конкретные аргументы для инвестирования в инфраструктуру локального инференса: «Вот точная сумма, которую мы сэкономим, перенеся задачу X на локальную модель».

Инструмент доступен на GitHub по адресу https://github.com/BuildWithAbid/llm-cost-profiler. Автор планирует добавить поддержку отслеживания затрат на локальный инференс моделей (расчёт на основе времени вычислений) и спросил сообщество, будет ли это полезно.

Такой инструмент профилирования затрат особенно актуален для разработчиков, использующих AI-агентов для кодинга, так как предоставляет данные о том, где расходы на API могут быть неэффективны по сравнению с локальными альтернативами.

📖 Read the full source: r/LocalLLaMA

Профилировщик затрат на LLM: инструмент с открытым исходным кодом отслеживает расходы на API, чтобы обосновать использование локальных моделей.

Ключевые особенности и выводы

👀 Смотрите также

4-уровневая архитектура базы знаний для повышения точности ИИ-агентов

Расширение браузера WeAreHere и инструменты MCP сканируют политики конфиденциальности веб-сайтов.

Сервер Octopoda MCP добавляет постоянную память, обнаружение циклов и журналы аудита в код Claude.

Engramx v3.4: MCP-сервер + граф знаний SQLite сокращает потребление токенов Claude Code на 89%