TEMM1E v3.1.0:ユーザーインタラクションを用いて自己ファインチューニングを行うAIエージェント

TEMM1E Eigen-Tuneの機能
TEMM1EのEigen-Tuneエンジンは、通常は破棄されるラベル付き学習データとして、すべてのLLM呼び出しを記録します。ユーザーの行動シグナル(継続、再試行、拒否)から応答品質をスコアリングし、LoRAファインチューニングを通じて知識をローカルモデルに蒸留し、統計的なゲートを通じてモデルを昇格させます。これらすべてが追加のLLMコスト0ドルで実現されます。
技術的実装
このシステムは7段階の閉ループパイプラインを使用します:収集、スコアリング、キュレーション、トレーニング、評価、シャドウ、監視。各段階には数学的なゲートがあります:
- 昇格用のSPRT(Wald, 1945) — 1つの悪い応答は19の良い応答で回復が必要
- ドリフト検出用のCUSUM(Page, 1954) — 38サンプルで5%の精度低下を検出
- 評価用の99%信頼区間のWilsonスコア
評価は設計上ゼロコストです:ローカルのOllamaモデルによる埋め込み類似性(0ドル)、シャドウテスト用のユーザー行動シグナル(0ドル)、即時ヒューリスティックと意味的埋め込みによる2段階検出、および12言語にわたる多言語拒否検出。
ベンチマーク結果
Apple M2(16 GB RAM)での実際の蒸留:SmolLM2-135MをLoRAでファインチューニング、学習可能パラメータは0.242%。トレーニング:100イテレーション、損失は2.45から1.24へ減少(49%削減)。ピークメモリ:トレーニング時0.509 GB、推論時0.303 GB。ベースモデルは72°F = '150°C'と誤って計算しましたが、ファインチューニングされたモデルは10例から学習後、正しく'21.2°C'を出力しました。
ハードウェアを考慮したモデル選択
このシステムはハードウェアを自動検出し、モデルを推奨します:
- 概念実証用のSmolLM2-135M
- 良好なバランス用のQwen2.5-1.5B
- 高品質用のPhi-3.5-3.8B
- 最大能力用のLlama-3.1-8B
/eigentune modelで設定するか、自動のままにします。
セットアップと実装
設定ファイルの1行で有効化:[eigentune] enabled = true。このシステムは収集、品質スコアリング、データセットキュレーション、ファインチューニング、評価、昇格、監視を処理します。すべての失敗はクラウドにフォールバック — 沈黙することなく、以前より悪化することはありません。
Rustで構築、18のクレート、Eigen-Tune内136テスト、ワークスペース合計1,638テスト、警告0。MITライセンスでオープンソース。
📖 Read the full source: r/openclaw
👀 See Also

クロードはインタラクティブなチャートとダイアグラム作成機能を追加しました
Claudeは現在、会話内で直接チャート、図表、探索可能な詳細情報を含むインタラクティブなビジュアルを生成できるようになりました。この機能は無料プランを含むすべてのプランでベータ版として利用可能です。

MarkView:オープンソースツールでAI生成のMarkdownファイルをレンダリング・管理
MarkViewは、MermaidダイアグラムとKaTeX数式を表示するプライバシー重視のMarkdownレンダリングエンジンで、Webアプリ、ネイティブmacOSアプリ、Claude DesktopやCursorとの統合のためのMCPサーバーとして利用可能です。

Relvyは、OpenRCAベンチマークにおいてClaudeの根本原因分析精度を12パーセントポイント向上させます。
Relvyは、ランブックを自動化するツールで、OpenRCAベンチマークにおける根本原因分析のClaudeの精度を12パーセントポイント向上させたことを実証しました。この結果は、11ポイントを獲得したHacker Newsの投稿で共有されました。

Claude Code v2.1.126: モデル選択、プロジェクト削除、OAuth修正、およびセキュリティ改善
Claude Code v2.1.126 では、Anthropic 互換ゲートウェイ用の /model ピッカー、新しい claude project purge コマンド、WSL2/SSH/コンテナでの OAuth ログインの修正、管理設定と Windows でのクリップボード露出に関するセキュリティ問題の修正が追加されました。