EvalShift: モデル移行中のLLM回帰検出のためのオープンソースCLI

✍️ OpenClawRadar📅 公開日: May 15, 2026🔗 Source
EvalShift: モデル移行中のLLM回帰検出のためのオープンソースCLI
Ad

EvalShiftは、LLMやモデルバージョン間の切り替え時に回帰を検出するためのオープンソースPython CLIです。ゴールデン入力スイートをソースモデルとターゲットモデルの両方に対して実行し、出力を評価して、ローカルHTMLレポートを生成します。バックエンドやアカウント、テレメトリは不要です。

主な機能

  • LiteLLMによるソースモデルとターゲットモデルの比較
  • タグ/スライス付きJSONLゴールデンスイート
  • 構造的評価: JSONスキーマ、正規表現、長さ
  • 意味的評価: 埋め込み類似度
  • LLM-as-judgeによるペアワイズ評価
  • ツール呼び出し評価: ツール選択、引数マッチング、トレース構造
  • ペア統計検定: t検定 / Wilcoxon
  • 効果量: Cohen's d
  • 多重比較補正: Benjamini-Hochberg
  • スライスレベルの内訳
  • ローカルキャッシュによるコスト制御
  • 再開可能な実行
  • 単一ファイルHTMLレポート + JSON出力

このプロジェクトの狭い目標は移行の安全性です。「プロンプトやエージェントの動作を壊さずにモデルを切り替えられるか?」著者は、静かなエージェント回帰(例えば、新しいモデルが一見妥当な最終回答を生成するが、必要なツール呼び出しをスキップしたり、間違ったツールを呼び出したり、引数を変更したりする)を捕捉することを重視しています。

ユースケース

  • Claude 4.5 → Claude 5
  • GPT-5 → GPT-6
  • Gemini 2 → 3
  • ローカルモデル → ホストモデル

著者は、ローカルモデルとホストモデルのどちらに役立つか、ローカルLLMワークフローで最も重要な評価タイプ、ツール呼び出し/構造化出力の回帰が実際に問題となるかについてフィードバックを求めています。リポジトリはMITライセンスです。

📖 ソース全文を読む: r/LocalLLaMA

Ad

👀 See Also

Claude Codeプラグインがローカルでトークンの無駄と異常を分析します
Tools

Claude Codeプラグインがローカルでトークンの無駄と異常を分析します

開発者が、ローカルセッションデータから6種類の異常を検出してトークンの無駄を診断するClaude Codeプラグインを構築しました。このツールは8,392セッションを分析し、1,015件の異常を発見しました。最も多かったのはExcessiveToolUseでした。

OpenClawRadar
Memento v1.0:Claude Code用 永続メモリ MCP サーバー(17ツール搭載)
Tools

Memento v1.0:Claude Code用 永続メモリ MCP サーバー(17ツール搭載)

Memento v1.0は、Claude Code向けの永続メモリMCPサーバーで、17のツール、ハイブリッド検索、矛盾検出、視覚的メモリグラフを備えています。ローカルで動作し、クラウド依存がなく、Claude Code、Cursor、Windsurf、OpenCodeを含む複数のIDEをサポートします。

OpenClawRadar
MoltNow.app:ワンクリックでOpenClawを展開するプラットフォームが登場
Tools

MoltNow.app:ワンクリックでOpenClawを展開するプラットフォームが登場

新しいサービス「MoltNow.app」は、OpenClawのデプロイをワンクリックで簡素化することを約束します。カスタムUIとブラウザ自動化を備えています。

MoltNow.app builder
Apple Silicon向けAIエージェントのローカル音声コントロール設定
Tools

Apple Silicon向けAIエージェントのローカル音声コントロール設定

Parakeet STTとKokoro TTSをApple Siliconで使用して、AIエージェントのローカル音声制御を設定する方法について説明します。これにより、高速でクラウドに依存しない対話が可能になります。

OpenClawRadar