AIエージェントベンチマーク vs 本番：GrokとMiniMaxが失敗する理由

完全自動化されたスポーツ予想サービス（AIBossSports）を運営する開発者は、コスト削減を図るため、Claude Sonnet 4.6からOpenRouter経由のより安価なモデルへの切り替えを試みました。このサービスでは、AIエージェントが動画制作、品質保証、YouTube/X/TikTokへの配信、購読者へのSMS送信、分析を担当しています。

ベンチマークの設定

開発者は代替モデルをテストするためのベンチマーク評価基準を作成しました：

本番ファイルの読み取りと要約
利用可能な動画アセットの正確なリスト作成
複数ステップのタスクをサブエージェントに委任
複数ソースからの結果の統合
構造化された出力（JSON/レポート形式）の生成

GrokとMiniMaxの両モデルはこれらのテストを問題なく通過し、大幅なコスト削減が可能であることが示唆されました。

本番環境での失敗

本番環境に導入されると、両モデルはベンチマークでは検出されなかった方法で失敗しました：

Grokは、出力ログでは妥当に見えるが実際には誤ったクリップパスを幻覚生成しました。動画エージェントは、チーム固有の映像ではなく一般的なストック映像のようなクリップを取得しました。幻覚生成されたパスは存在しましたが、文脈的に適切ではなかったためです。
MiniMaxは、メール組み立て中にロゴアセットでMIMEタイプエラーを引き起こしました。メールシステムは複数回の送信で断続的に破損し、MiniMaxがファイル添付メタデータを処理する方法に起因することが追跡されました。

開発者はすべてをClaude Sonnet 4.6に戻しました。