スキルウェアは、ローカルモデルのファインチューニングのためのエントロピースコアリング付き合成データジェネレーターを追加しました。

Skillwareは、一般的な合成データがモデルの崩壊を引き起こす問題に対処しながら、ローカルモデルのファインチューニングに特化して設計された新しい合成データ生成スキルをライブラリに追加しました。
主な機能
このツールには、以下のような具体的な機能が含まれています:
- エントロピースコアリング:保存前に出力の多様性を数学的にスコアリングするために、zlib圧縮率のヒューリスティックを使用します。これにより、モデルの崩壊につながる可能性のある低エントロピーデータを特定・フィルタリングできます。
- ローカル対応:ローカルモデルとの統合のためにOllamaとすぐに連携できます。また、必要に応じて高度な推論バッチを生成するためにGeminiおよびAnthropicモデルもサポートしています。
- 構造化出力:.jsonlファインチューニングパイプラインに特化してフォーマットされた完璧なJSONバッチを生成し、トレーニングワークフローで即座に使用できるようにします。
解決する問題
このツールは、一般的な合成データがファインチューニング中にモデルが「自分自身を繰り返す」現象(モデル崩壊として知られる)を引き起こす問題に特に焦点を当てています。保存前に出力の多様性をスコアリングすることで、トレーニングデータが十分なバリエーションを維持することを支援します。
ソースによると、これはSkillwareライブラリへの新たな追加機能であり、ファインチューニングタスクのためのより優れた合成データ生成を必要とするローカルモデルを扱う開発者向けに利用可能です。
📖 Read the full source: r/LocalLLaMA
👀 See Also

Flue: 自律型コーディングエージェントを構築するためのTypeScriptフレームワーク
Flueは、自律エージェントを構築するためのプログラム可能なハーネスを提供するTypeScriptフレームワークで、スキル、セッション、サンドボックス化されたシェル実行、組み込みの仮想サンドボックスを備えています。Dosu、Greptile、CodeRabbit、Devin、Claude Codeなどのツールをカスタムエージェントロジックで置き換えることができます。

MLJAR Studio:生成可复现笔记本的本地AI数据分析工具
MLJAR Studioは、自然言語の質問をローカルで実行されるPythonノートブックに変換するデスクトップアプリです。表形式データ向けのAutoMLを備え、Ollamaを介したローカルLLMをサポートします。

ジェネラルボット:セルフホスト型エンタープライズ自動化のためのオープンソースAIエージェントプラットフォーム
General Botsは、2019年に開始されたオープンソースプラットフォームで、AIエージェント、ワークフロー自動化、ドキュメント処理、ローカルAIモデルサポートとの統合を提供し、自社インフラストラクチャを完全に制御したい組織向けに設計されています。

リコール:Claude Code用の永続メモリMCPサーバー
Recallは、埋め込みを用いたセマンティック検索によってClaude Codeにセッションを超えた永続的なメモリを提供するオープンソースのMCPサーバーです。4つのライフサイクルフック(session-start、observe、pre-compact、session-end)を含みます。