エージェント型テキスト-to-SQLベンチマーク：小規模ローカル vs OpenRouterモデル

開発者が、エージェント型テキスト-to-SQLタスクにおける小型ローカルモデルとOpenRouterモデルのベンチマーク結果を公開しました。このベンチマークは、「各製品サブカテゴリについて、注文明細、売上高、販売数量、単位当たり売上高（総売上高÷総販売数量）、サブカテゴリ内の製品ごとの平均定価、粗利益、利益率を表示」といった英語クエリを受け取り、データベーステーブルに対してテストされるSQLに変換します。

ベンチマークの詳細

エージェントはクエリ結果を確認し、問題を修正するためにSQLを修正できますが、デバッグラウンド数に制限があります。ベンチマークは意図的に短く25問で構成され、ほとんどのモデルで5分未満で実行されるため、さまざまな設定をテストするのに実用的です。最良のモデルを他と区別するのに十分な厳しさを持つように設計されています。