LLMコストプロファイラー:ローカルモデル採用の根拠となるAPI支出を追跡するオープンソースツール

LLMコストプロファイラーは、コードがOpenAIとAnthropicに行うすべてのAPI呼び出しを追跡し、何に、どこに、なぜ使っているかを正確に示すオープンソースのPythonツールです。このツールは、タスクの複雑さに対して過大なコストがかかっている箇所を明らかにし、ローカル推論への移行を正当化する具体的なデータを提供します。
主な機能と発見
このツールはすべてをローカルのSQLiteに保存し、MITライセンスで提供されています。ソースによると、API呼び出しの無駄に関するいくつかの具体的な例が発見されました:
- 5つのラベルのうち1つを出力するGPT-4oを使用した分類器——これはまともな7Bローカルモデルなら簡単に処理できるタスクです。コスト:API呼び出しで週約89ドル。
- 同じプロンプトへの数千回の重複呼び出し——キャッシュはゼロ。キャッシュを伴うローカル推論なら、これは実質的に無料になります。
- 34%の呼び出しがフォーマットエラーからの再試行だった要約ツール。制約付き生成を備えた適切に調整されたローカルモデルなら、この種の無駄を完全に排除できます。
著者は、このツールがチームにローカル推論インフラへの投資を正当化する具体的な根拠を与えると指摘しています:「Xタスクをローカルモデルに移行することで、正確にこれだけの金額を節約できます。」
このツールはGitHubのhttps://github.com/BuildWithAbid/llm-cost-profilerで入手可能です。著者は、ローカルモデル推論コストの追跡サポート(計算時間に基づくコスト計算)の追加を計画しており、コミュニティにこれが有用かどうか尋ねています。
この種のコストプロファイリングツールは、AIコーディングエージェントを使用する開発者にとって特に重要です。なぜなら、API支出がローカル代替案と比較して非効率な箇所について、データ駆動型の洞察を提供するからです。
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

Mymir: MCPによるコーディングエージェントのためのオープンソースプロジェクトグラフ
Mymirは、依存関係、決定事項、受け入れ基準、過去の実行メモをグラフベースのプロジェクトマップとしてエージェントに提供し、MCPを介してセッション間での状態の再説明を回避します。

オープンソースのMCPサーバーにより、AIエージェントがLightning Network経由でL402支払いを処理できるようになります
FastMCPで構築されたPython MCPプラグインは、HTTP 402 Payment Requiredレスポンスを傍受し、Lightning Networkインボイスを支払い、AIエージェントのデータを取得します。リポジトリには、実際の資金を使わずにテストできるローカルダミーエージェントが含まれています。

Anchormd: Claude AIセッション間のコンテキストを管理するツール
Anchormdは、キュレートされたマークダウンプランを検索可能な知識グラフにインデックス化することで、Claude AIセッションにおけるコンテキストの喪失問題に対処するオープンソースツールです。エージェントはセッション開始時にプロジェクト概要を読み込み、必要に応じて特定の詳細をクエリできます。

マゼラン:クロードコード上に構築された15エージェント自律科学発見システム
MAGELLANは、Claude Code上に完全に構築された15エージェントの自律的科学発見システムです。Opusを深い推論に、Sonnetを構造化タスクに使用し、人間の指示なしに学際的な仮説を生成します。19回のセッションで260の仮説が提案され、敵対的検証によって60%が棄却されました。