LLMock: プロセス間での決定論的LLMテストのためのHTTPベースのモッキングサーバー

LLMockは、指定されたポートで実際のHTTPサーバーとして動作し、LLM API呼び出しをインターセプトするモッキングサーバーです。有料APIを叩くことなく、複数プロセスにわたる決定論的なテストを可能にします。
主要な詳細
このツールは、ある開発者がPlaywrightテストを実際のOpenAI APIに対して実行して12ドルを費やした後に発見されました。問題は、MSW (Mock Service Worker) を使用した際に発生しました。MSWはserver.listen()を呼び出すNode.jsプロセス内のHTTPモジュールをパッチしますが、別のプロセス(Pythonエージェントなど)にはモッキングが全く認識されないのです。
LLMockでは、Node.js、Python、その他の言語を問わず、すべてのプロセスからOPENAI_BASE_URL環境変数をモックサーバーに向けます:
const mock = new LLMock({ port: 5555 });
await mock.start();
process.env.OPENAI_BASE_URL = "http://localhost:5555/v1";フィクスチャーは、ユーザーメッセージの部分文字列や正規表現パターンにマッチするプレーンなJSONファイルで、ハンドラーの定型コードを排除します:
{
"fixtures": [
{
"match": { "userMessage": "stock price of AAPL" },
"response": { "content": "アップル株式会社 (AAPL) の現在の株価は150.25ドルです。" }
}
]
}ソースからの主な機能:
- 実際のOpenAI/Claude/Gemini SSEフォーマットを正しく話す(イベントタイプを間違えるとストリーミングが微妙に壊れる)
- 完全なツール呼び出しサポート - エージェントフレームワークは通常通り実行する
- 述語ルーティングにより、システムプロンプトの状態やマルチエージェントフローのメッセージ履歴を検査可能
- リクエストジャーナルで、テストが通過したかどうかだけでなく、実際に何が呼び出されたかをアサート可能
- 依存関係ゼロ
開発者は、3つのPlaywrightテストにまたがる9回のLLM呼び出しを、コスト0ドルで実行し、毎回決定論的な結果を得ることに成功しました。
📖 ソース全文を読む: r/LocalLLaMA
👀 See Also

マニフェストがM2.7モデルでMiniMaxトークンプランをサポート追加
オープンソースのルーティングレイヤーであるManifestは、OpenClaw向けに、月額10ドルから利用可能なMiniMaxトークンプランをサポートするようになりました。新たに導入されたMiniMax M2.7モデルは、OpenClawのワークフロー向けに特別にトレーニングされており、MM-ClawBenchで62.7、SWE-Bench Proで56.2のスコアを記録しています。

Claude CodeのRead Toolが画像を無言で縮小し、幻覚を引き起こす
Claude Codeの`read`ツールは、モデルに画像が渡される前に静かに解像度を下げており、その結果、スクリーンショットからテキストを抽出する際に出力品質が低下し、認識できない幻覚を引き起こします。

TextForge: Claude Codeで構築されたLLMワークフロー向けメール承認ツール
開発者は、Claude Codeを使用してTextForgeを構築し、必須の承認ゲートを備えたメールワークフローを自動化しました。これにより、LLMが明示的な許可なしにメールを送信することを防止しています。このツールはPipedrive CRMと統合されており、Google CASA2セキュリティ監査のコンプライアンス要件を満たす必要がありました。

Claude Code + MCPはソースコードからテストスイートを生成します
Claude Codeはソースコードを分析し、モジュール、機能、シナリオ、正常系、境界値、エラー処理をカバーする階層的なテストスイートを生成し、MCPを介してテスト管理システムにプッシュします。