Профилировщик затрат на LLM: инструмент с открытым исходным кодом отслеживает расходы на API, чтобы обосновать использование локальных моделей.

LLM Cost Profiler — это инструмент с открытым исходным кодом на Python, который отслеживает каждый API-вызов вашего кода к OpenAI и Anthropic, показывая, на что именно, где и почему вы тратите средства. Инструмент выявляет, какие задачи переоценены относительно их сложности, предоставляя конкретные данные для обоснования перехода на локальный инференс.
Ключевые особенности и выводы
Инструмент хранит всё в локальной SQLite и имеет лицензию MIT. Согласно источнику, он обнаружил несколько конкретных примеров неэффективных API-вызовов:
- Классификатор, использующий GPT-4o и выводящий один из 5 ярлыков — задача, с которой легко справляется любая качественная локальная модель на 7B. Стоимость: ~$89/неделя на API-вызовах.
- Тысячи дублирующих вызовов одного и того же промпта — кэширование отсутствует. Локальный инференс с кэшированием сделал бы это практически бесплатным.
- Суммаризатор, где 34% вызовов были повторными из-за ошибок формата. Хорошо настроенная локальная модель с ограниченной генерацией устраняет весь этот класс потерь.
Автор отмечает, что этот инструмент даёт командам конкретные аргументы для инвестирования в инфраструктуру локального инференса: «Вот точная сумма, которую мы сэкономим, перенеся задачу X на локальную модель».
Инструмент доступен на GitHub по адресу https://github.com/BuildWithAbid/llm-cost-profiler. Автор планирует добавить поддержку отслеживания затрат на локальный инференс моделей (расчёт на основе времени вычислений) и спросил сообщество, будет ли это полезно.
Такой инструмент профилирования затрат особенно актуален для разработчиков, использующих AI-агентов для кодинга, так как предоставляет данные о том, где расходы на API могут быть неэффективны по сравнению с локальными альтернативами.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

TideSurf: инструмент сжатия DOM сокращает использование токенов веб-агента в 30 раз, ускоряет TTFT в 12 раз
TideSurf v0.3 преобразует отрендеренный DOM в сжатый формат, похожий на markdown, сокращая потребление токенов в 32 раза на страницах GitHub по сравнению с исходным DOM, а также добавляет 18 интерактивных инструментов для LLM-агентов.

Пневма: Сгенерированная ИИ среда рабочего стола, где программы материализуются из описаний
Pneuma — это вычислительная среда для настольных компьютеров, в которой вы описываете, что вам нужно — монитор ЦП, игру, приложение для заметок или визуализатор данных — и рабочая программа появляется за считанные секунды. Система генерирует автономные модули на Rust, компилирует их в WebAssembly и выполняет в изолированных экземплярах Wasmtime с GPU-рендерингом через wgpu.

Gemma 4 26B против Qwen 3.5 27B: Бенчмарк рабочих процессов для локального бизнеса на RTX 4090
Разработчик протестировал Gemma 4 26B и Qwen 3.5 27B на рабочей станции с RTX 4090, выполнив 18 реальных задач бизнес-оператора. Gemma победила со счётом 13-5, показав более высокую скорость и лучшую дисциплину в ежедневной исполнительной работе, в то время как Qwen преуспела в более широком стратегическом мышлении.

Krasis: гибридная среда выполнения для больших моделей MoE на CPU/GPU демонстрирует скорость предзаполнения 3,324 ток/с на RTX 5080
Krasis — это гибридная среда выполнения CPU/GPU, предназначенная для работы с большими моделями типа Mixture-of-Experts (MoE). Она обрабатывает предварительное заполнение на GPU, а декодирование — на CPU, достигая скорости 3324 токена/с на RTX 5080 с моделью Qwen3-Coder-Next 80B Q4. Для работы требуется примерно в 2,5 раза больше оперативной памяти, чем размер модели, что позволяет запускать модели, слишком большие для видеопамяти.