ObliteratusツールキットでAIモデルの拒否ウェイトを除去する方法

r/LocalLLaMAのRedditユーザーが、AIモデルの拒否行動を引き起こす特定の重みを除去するためにObliteratusツールキットを使用する方法を実演しました。このアプローチでは、安全性フィルターや企業アイデンティティのガードレールを強化する重みを外科的に削除します。

ソースからの主要な詳細

ユーザーは具体的に以下のことを行いました：

拒否行動を引き起こす重みを見つけるためにObliteratusツールキットを使用
AlibabaのQwen 1.5Bモデルからこれらの重みを外科的に除去
修正されたモデルに「誰がトレーニングしたか」と質問してテスト
企業アイデンティティのガードレールが数学的に削除されると、モデルがAnthropicによってトレーニングされたことを認めた
これはモデルがトレーニングに合成Claudeデータを使用した副作用であると指摘

結果は、モデルが推論と知識の能力を保持しながら、企業のスクリプトを失うことを示しています。ユーザーは、これはモデルの再学習を必要とせず、拒否連鎖を引き起こす特定の重みを削除するだけで済むと強調しています。

この種の重み除去技術は、モデルの解釈可能性と制御に関する広範な研究の一部です。Obliteratusのようなツールは、ニューラルネットワークのどの部分が特定の行動を引き起こしているかを研究者が調査できるようにしますが、このような修正は意図しない結果をもたらす可能性があり、プロプライエタリモデルの利用規約に違反する場合があります。

📖 Read the full source: r/LocalLLaMA

Obliteratusツールキットを使用してAIモデルから拒否ウェイトを除去する

ソースからの主要な詳細

👀 See Also

高速埋め込みとランスDBによるAI会話のためのローカル意味検索

Forge: ClaudeベースのIDE、自動検証とプロジェクトDNAを搭載

Claude Codeによる.xcstringsの自動ローカライゼーション

Claude Code as a Compiler: AI開発のための実践的な再構築