ベンチマーク結果:38の実ワークフロータスクでテストされた15のLLM

ある開発者が、どのLLMに作業を振り分けるかを決定するためのベンチマークハーネスを構築し、実際のワークフローから抽出した38のタスクで15のモデルをテストしました。タスクには、CSV変換、文字数カウント、モジュラー演算、フォーマット準拠、多段階の指示などが含まれていました。すべてのタスクは、正規表現と完全一致を用いてプログラム的に採点されました。LLMによる判定は使用されていません。
ベンチマーク結果
このベンチマークでは、合計$2.29の費用で570回のAPI呼び出しが行われました。主な結果は以下の通りです:
- Claude 3.5 Opus: 100%スコア、1回あたり$0.69、14.2秒
- Claude 3.5 Sonnet: 100%スコア、1回あたり$0.20、5.1秒
- MiniMax M2.5: 98.60%スコア、1回あたり$0.02、2.3秒
- Kimi K2.5: 98.60%スコア、1回あたり$0.05、3.8秒
- GPT-oss-20b (ローカル): 98.30%スコア、1回あたり$0、4.1秒
- Gemini 2.5 Flash: 97.10%スコア、1回あたり$0.00、1.1秒
- Claude 3.5 Haiku: 96.90%スコア、1回あたり$0.02、1.8秒
コストパフォーマンス分析
SonnetとOpusはともに100%のスコアを獲得しましたが、Opusは1回の呼び出しあたりのコストが3.5倍高くなっています。この開発者の日常的なタスクにおいては、SonnetはOpusが処理できるすべての作業をこなします。1回あたり$0.003のGemini Flashと、1回あたり$0.69のOpusを比較すると、2.9ポイントの性能差に対して265倍のコスト差があります。
驚くべき発見
MiniMax M2.5とKimi K2.5はともに98.6%のスコアと100%のフォーマット準拠率を達成しました。この開発者は、ベンチマークを実行する前にはどちらのモデルも使用したことがありませんでした。ローカルで実行されたGPT-oss-20bは、$0のコストで98.3%のスコアを獲得し、HaikuやDeepSeek R1を上回りました。
品質保証プロセス
品質保証プロセスにより、採点のバグが明らかになりました。初期の結果では、HaikuがSonnetを上回っているように見えましたが、これは100%を超える品質スコアを生成する採点バグによるものでした。5回の品質保証パスが実施され、それぞれ異なるモデルが使用され、それぞれが前回のパスでは見逃していたバグを発見しました。
この開発者は、これらの結果に基づいて、日常的に使用するモデルをSonnetに変更することを決めましたが、性能の変動を考慮して、モデル間の切り替えをより頻繁に行う計画です。
📖 Read the full source: r/ClaudeAI
👀 See Also

Sylve: 仮想化、コンテナ、ストレージのためのFreeBSD管理プレーン
Sylveは、FreeBSD用のBSD-2ライセンスの管理プレーンであり、Bhyve VM、FreeBSD Jails、ZFSストレージ、ネットワーキングを統一的に制御します。クラスタリングにはRAFTコンセンサスモデルを採用し、ZFSスナップショット自動化を備えたSamba共有管理を含みます。

Lightpanda: LLMエージェント向けのオープンソースヘッドレスブラウザ、ネイティブMCPサーバーとマークダウン出力を搭載
Lightpandaは、LLM駆動エージェント向けに設計されたオープンソースのヘッドレスブラウザで、Chromeと比較して16倍少ないメモリ使用量(215MB対2GB)を実現し、ウェブクローリングベンチマークを47秒ではなく5秒で完了します。ネイティブのマークダウン出力、インタラクティビティ検出付きセマンティックツリー、組み込みMCPサーバーを提供します。

ソールMCPサーバーがローカルLLM向けに永続メモリと安全性を追加
Soulは、ローカルLLM向けにセッション間で永続的なメモリを提供するオープンソースのMCPサーバーです。2つのコマンド(開始時のn2_bootと終了時のn2_work_end)を使用し、Arkセーフティ機能によりrm -rfやDROP DATABASEなどの危険なコマンドをトークンコストゼロでブロックします。クラウドストレージ設定も含まれています。

エングラムメモリSDK:ローカルモデル搭載AIエージェント向けグラフベースメモリ
Engram Memory SDKは、LiteLLMを介してローカルモデルと連携するAIエージェント向けのオープンソースグラフメモリシステムです。取り込みにはLLM呼び出しが1回のみ必要で、その後はベクトル検索とグラフトラバーサルによる想起が可能で、継続的なLLMコストはゼロです。