EvalShift: モデル移行中のLLM回帰検出のためのオープンソースCLI

EvalShiftは、LLMやモデルバージョン間の切り替え時に回帰を検出するためのオープンソースPython CLIです。ゴールデン入力スイートをソースモデルとターゲットモデルの両方に対して実行し、出力を評価して、ローカルHTMLレポートを生成します。バックエンドやアカウント、テレメトリは不要です。
主な機能
- LiteLLMによるソースモデルとターゲットモデルの比較
- タグ/スライス付きJSONLゴールデンスイート
- 構造的評価: JSONスキーマ、正規表現、長さ
- 意味的評価: 埋め込み類似度
- LLM-as-judgeによるペアワイズ評価
- ツール呼び出し評価: ツール選択、引数マッチング、トレース構造
- ペア統計検定: t検定 / Wilcoxon
- 効果量: Cohen's d
- 多重比較補正: Benjamini-Hochberg
- スライスレベルの内訳
- ローカルキャッシュによるコスト制御
- 再開可能な実行
- 単一ファイルHTMLレポート + JSON出力
このプロジェクトの狭い目標は移行の安全性です。「プロンプトやエージェントの動作を壊さずにモデルを切り替えられるか?」著者は、静かなエージェント回帰(例えば、新しいモデルが一見妥当な最終回答を生成するが、必要なツール呼び出しをスキップしたり、間違ったツールを呼び出したり、引数を変更したりする)を捕捉することを重視しています。
ユースケース
- Claude 4.5 → Claude 5
- GPT-5 → GPT-6
- Gemini 2 → 3
- ローカルモデル → ホストモデル
著者は、ローカルモデルとホストモデルのどちらに役立つか、ローカルLLMワークフローで最も重要な評価タイプ、ツール呼び出し/構造化出力の回帰が実際に問題となるかについてフィードバックを求めています。リポジトリはMITライセンスです。
📖 ソース全文を読む: r/LocalLLaMA
👀 See Also

Claude Codeプラグインがローカルでトークンの無駄と異常を分析します
開発者が、ローカルセッションデータから6種類の異常を検出してトークンの無駄を診断するClaude Codeプラグインを構築しました。このツールは8,392セッションを分析し、1,015件の異常を発見しました。最も多かったのはExcessiveToolUseでした。

Memento v1.0:Claude Code用 永続メモリ MCP サーバー(17ツール搭載)
Memento v1.0は、Claude Code向けの永続メモリMCPサーバーで、17のツール、ハイブリッド検索、矛盾検出、視覚的メモリグラフを備えています。ローカルで動作し、クラウド依存がなく、Claude Code、Cursor、Windsurf、OpenCodeを含む複数のIDEをサポートします。

MoltNow.app:ワンクリックでOpenClawを展開するプラットフォームが登場
新しいサービス「MoltNow.app」は、OpenClawのデプロイをワンクリックで簡素化することを約束します。カスタムUIとブラウザ自動化を備えています。

Apple Silicon向けAIエージェントのローカル音声コントロール設定
Parakeet STTとKokoro TTSをApple Siliconで使用して、AIエージェントのローカル音声制御を設定する方法について説明します。これにより、高速でクラウドに依存しない対話が可能になります。