Профилировщик затрат на LLM: инструмент с открытым исходным кодом отслеживает расходы на API, чтобы обосновать использование локальных моделей.

LLM Cost Profiler — это инструмент с открытым исходным кодом на Python, который отслеживает каждый API-вызов вашего кода к OpenAI и Anthropic, показывая, на что именно, где и почему вы тратите средства. Инструмент выявляет, какие задачи переоценены относительно их сложности, предоставляя конкретные данные для обоснования перехода на локальный инференс.
Ключевые особенности и выводы
Инструмент хранит всё в локальной SQLite и имеет лицензию MIT. Согласно источнику, он обнаружил несколько конкретных примеров неэффективных API-вызовов:
- Классификатор, использующий GPT-4o и выводящий один из 5 ярлыков — задача, с которой легко справляется любая качественная локальная модель на 7B. Стоимость: ~$89/неделя на API-вызовах.
- Тысячи дублирующих вызовов одного и того же промпта — кэширование отсутствует. Локальный инференс с кэшированием сделал бы это практически бесплатным.
- Суммаризатор, где 34% вызовов были повторными из-за ошибок формата. Хорошо настроенная локальная модель с ограниченной генерацией устраняет весь этот класс потерь.
Автор отмечает, что этот инструмент даёт командам конкретные аргументы для инвестирования в инфраструктуру локального инференса: «Вот точная сумма, которую мы сэкономим, перенеся задачу X на локальную модель».
Инструмент доступен на GitHub по адресу https://github.com/BuildWithAbid/llm-cost-profiler. Автор планирует добавить поддержку отслеживания затрат на локальный инференс моделей (расчёт на основе времени вычислений) и спросил сообщество, будет ли это полезно.
Такой инструмент профилирования затрат особенно актуален для разработчиков, использующих AI-агентов для кодинга, так как предоставляет данные о том, где расходы на API могут быть неэффективны по сравнению с локальными альтернативами.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Обратная разработка протокола UniFi inform для маршрутизации в мультитенантной среде
Протокол UniFi inform отправляет данные устройств на контроллеры через HTTP POST на порт 8080 каждые 10 секунд. Первые 40 байт каждого пакета содержат незашифрованные MAC-адреса устройств, что позволяет маршрутизировать трафик без расшифровки.

Mneme: Предварительный хук, блокирующий правки кода Claude, нарушающие архитектурные решения
Mneme — это PreToolUse-хук для Claude Code, который проверяет каждое действие Edit/Write/MultiEdit по локальному файлу решений перед записью на диск, блокируя нарушения без ручного вмешательства.

Prism MCP v2.1 добавляет постоянную память к сессиям Claude.
Prism MCP v2.1.0 'Дворец разума' обеспечивает постоянную память сессий для Claude, устраняя необходимость повторного объяснения контекста проекта. Он включает локальное хранилище SQLite, визуальный браузер памяти, откат состояния и синхронизацию контекста между клиентами.

Бенчмарк: MLX vs Ollama, запуск Qwen3-Coder-Next 8-Bit на MacBook Pro M5 Max
Бенчмарк, сравнивающий бэкенды MLX и Ollama, работающие с квантованной 8-битной версией Qwen3-Coder-Next на MacBook Pro M5 Max с 128 ГБ оперативной памяти, показал, что MLX достигает примерно 72 токенов в секунду, что примерно вдвое превышает пропускную способность Ollama в различных задачах программирования.