38実ワークフロータスクで15 LLMベンチマーク：Claude Sonnet vs Opusコスト比較

ある開発者が、どのLLMに作業を振り分けるかを決定するためのベンチマークハーネスを構築し、実際のワークフローから抽出した38のタスクで15のモデルをテストしました。タスクには、CSV変換、文字数カウント、モジュラー演算、フォーマット準拠、多段階の指示などが含まれていました。すべてのタスクは、正規表現と完全一致を用いてプログラム的に採点されました。LLMによる判定は使用されていません。

ベンチマーク結果

このベンチマークでは、合計$2.29の費用で570回のAPI呼び出しが行われました。主な結果は以下の通りです：

Claude 3.5 Opus: 100%スコア、1回あたり$0.69、14.2秒
Claude 3.5 Sonnet: 100%スコア、1回あたり$0.20、5.1秒
MiniMax M2.5: 98.60%スコア、1回あたり$0.02、2.3秒
Kimi K2.5: 98.60%スコア、1回あたり$0.05、3.8秒
GPT-oss-20b (ローカル): 98.30%スコア、1回あたり$0、4.1秒
Gemini 2.5 Flash: 97.10%スコア、1回あたり$0.00、1.1秒
Claude 3.5 Haiku: 96.90%スコア、1回あたり$0.02、1.8秒

コストパフォーマンス分析

SonnetとOpusはともに100%のスコアを獲得しましたが、Opusは1回の呼び出しあたりのコストが3.5倍高くなっています。この開発者の日常的なタスクにおいては、SonnetはOpusが処理できるすべての作業をこなします。1回あたり$0.003のGemini Flashと、1回あたり$0.69のOpusを比較すると、2.9ポイントの性能差に対して265倍のコスト差があります。

驚くべき発見

MiniMax M2.5とKimi K2.5はともに98.6%のスコアと100%のフォーマット準拠率を達成しました。この開発者は、ベンチマークを実行する前にはどちらのモデルも使用したことがありませんでした。ローカルで実行されたGPT-oss-20bは、$0のコストで98.3%のスコアを獲得し、HaikuやDeepSeek R1を上回りました。

品質保証プロセス

品質保証プロセスにより、採点のバグが明らかになりました。初期の結果では、HaikuがSonnetを上回っているように見えましたが、これは100%を超える品質スコアを生成する採点バグによるものでした。5回の品質保証パスが実施され、それぞれ異なるモデルが使用され、それぞれが前回のパスでは見逃していたバグを発見しました。

この開発者は、これらの結果に基づいて、日常的に使用するモデルをSonnetに変更することを決めましたが、性能の変動を考慮して、モデル間の切り替えをより頻繁に行う計画です。

📖 Read the full source: r/ClaudeAI

ベンチマーク結果：38の実ワークフロータスクでテストされた15のLLM

ベンチマーク結果

コストパフォーマンス分析

驚くべき発見

品質保証プロセス

👀 See Also

Anthropicの自然言語オートエンコーダーのためのUIとサーバー（llama.cpp版）

マギー：クロスセッションメモリとP2Pチーム学習を備えたClaude Code上の自律型エンジニアリングプラットフォーム

研究者がClaudeコードの真実性確認スキルを構築、自らのドキュメントに幻覚を発見

TeamOut AIエージェントによる会社のリトリート計画