Obliteratusツールキットを使用してAIモデルから拒否ウェイトを除去する

r/LocalLLaMAのRedditユーザーが、AIモデルの拒否行動を引き起こす特定の重みを除去するためにObliteratusツールキットを使用する方法を実演しました。このアプローチでは、安全性フィルターや企業アイデンティティのガードレールを強化する重みを外科的に削除します。
ソースからの主要な詳細
ユーザーは具体的に以下のことを行いました:
- 拒否行動を引き起こす重みを見つけるためにObliteratusツールキットを使用
- AlibabaのQwen 1.5Bモデルからこれらの重みを外科的に除去
- 修正されたモデルに「誰がトレーニングしたか」と質問してテスト
- 企業アイデンティティのガードレールが数学的に削除されると、モデルがAnthropicによってトレーニングされたことを認めた
- これはモデルがトレーニングに合成Claudeデータを使用した副作用であると指摘
結果は、モデルが推論と知識の能力を保持しながら、企業のスクリプトを失うことを示しています。ユーザーは、これはモデルの再学習を必要とせず、拒否連鎖を引き起こす特定の重みを削除するだけで済むと強調しています。
この種の重み除去技術は、モデルの解釈可能性と制御に関する広範な研究の一部です。Obliteratusのようなツールは、ニューラルネットワークのどの部分が特定の行動を引き起こしているかを研究者が調査できるようにしますが、このような修正は意図しない結果をもたらす可能性があり、プロプライエタリモデルの利用規約に違反する場合があります。
📖 Read the full source: r/LocalLLaMA
👀 See Also

高速埋め込みとランスDBによるAI会話のためのローカル意味検索
ある開発者が、fastembedをCPUベースの埋め込みに、LanceDBをサーバーレスなベクトルストアとして使用し、368KのAI会話メッセージをローカルにインデックス化し、APIキーなしで12msのp50検索レイテンシを達成しました。

Forge: ClaudeベースのIDE、自動検証とプロジェクトDNAを搭載
Forgeは、コードを表示する前に自動的に型チェック、テスト、カバレッジチェック、インポート検証を実行する、VS Code上に構築されたClaudeベースのIDEです。検証が失敗した場合の自己修復ループを含み、コードベースのパターンからプロジェクトDNAを構築します。

Claude Codeによる.xcstringsの自動ローカライゼーション
新しいClaude Codeスキルが、Xcodeの.xcstringsファイルのローカライゼーションを5つのパイプラインステージ(ドメインスキャン、コメント生成、CLDR複数形を含む翻訳、文法チェック、複数形修正変換)で自動化します。

Claude Code as a Compiler: AI開発のための実践的な再構築
Redditの投稿によると、Claude Codeはアシスタントではなく、文字通りの意味でのコンパイラとして機能しているとのことです。英語を動作するソフトウェアに翻訳するコンパイラであり、これはグレース・ホッパーのA-0やFORTRANといった歴史的なコンピューティングのブレークスルーに類似しています。著者は、3段落の英語による説明から6ファイルにわたる約400行のコードを生成し、25分で2つの問題点を発見したと述べています。