EvalShift: LLM回帰を検出するオープンソースCLI

EvalShiftは、LLMやモデルバージョン間の切り替え時に回帰を検出するためのオープンソースPython CLIです。ゴールデン入力スイートをソースモデルとターゲットモデルの両方に対して実行し、出力を評価して、ローカルHTMLレポートを生成します。バックエンドやアカウント、テレメトリは不要です。

主な機能

LiteLLMによるソースモデルとターゲットモデルの比較
タグ/スライス付きJSONLゴールデンスイート
構造的評価: JSONスキーマ、正規表現、長さ
意味的評価: 埋め込み類似度
LLM-as-judgeによるペアワイズ評価
ツール呼び出し評価: ツール選択、引数マッチング、トレース構造
ペア統計検定: t検定 / Wilcoxon
効果量: Cohen's d
多重比較補正: Benjamini-Hochberg
スライスレベルの内訳
ローカルキャッシュによるコスト制御
再開可能な実行
単一ファイルHTMLレポート + JSON出力

このプロジェクトの狭い目標は移行の安全性です。「プロンプトやエージェントの動作を壊さずにモデルを切り替えられるか？」著者は、静かなエージェント回帰（例えば、新しいモデルが一見妥当な最終回答を生成するが、必要なツール呼び出しをスキップしたり、間違ったツールを呼び出したり、引数を変更したりする）を捕捉することを重視しています。