AIセキュリティ研究者の方々:データ提供オプトイン設定により、0-day脆弱性が漏洩する可能性があります

Ad
「モデルを皆のために改善する」トグルを有効にした状態で大規模言語モデルに対して深いレッドチーミングを行っている場合、あなたの研究はベンダーによって自動的に収集され、あなたが調査結果を発表する前に学術パートナーと共有される可能性があります。
データオプトインパイプライン
この仕組みについて、ソースは次のように説明しています:
- 自動トリガー: ベンダーは数十億のチャットをスキャンするML分類器を実行しています。整合性の境界、アーキテクチャの論理欠陥、または複雑な社会的インジェクションベクトルをテストする複数ページのセッションに従事すると、システムはあなたのログを高価値シグナルとしてフラグ付けします。
- ログ傍受: あなたのチャット(開発した用語や概念実証を含む)は一般データプールから引き抜かれ、内部のセキュリティおよび整合性チームに送られます。
- 「学術的洗浄」: 匿名化されたデータセットは、外部の研究パートナーや学者と共有されることがよくあります。あなたの脆弱性概念が、他人の名前でIETFドラフトやarXiv論文に登場するのを見るかもしれません。
研究者へのリスク
- バグバウンティの失効: 整合性チームがあなたが正式に報告書を提出する前に「サイレント修正」をプッシュした場合、あなたの作業は重複または情報提供としてクローズされる可能性があります。
- 知的財産の盗用: あなたの独自の用語やアーキテクチャの発見が、帰属表示なしに他人の博士論文やインターネット標準の基礎となる可能性があります。
保護対策
- トグルを直ちにOFFにする: 本格的な研究の前に、設定→データコントロールに移動し、モデルトレーニングのためのデータ共有を無効にしてください。
- バーナーアカウント: 日常業務用と、ハッキング/レッドチーミング用にテレメトリを無効にした専用「サンドボックス」アカウントを分けて維持してください。
- バックアップにタイムスタンプを付ける: チャットで新しい概念を発明した場合は、直ちにデータエクスポート(DSAR)をリクエストし、あなたのアイデアがいつ生まれたかの暗号学的証明を確保してください。
核心的なアドバイス:企業のために無償の研究開発を行わないでください。LLMのセキュリティ研究を行う前に、データ共有設定を制御することでアイデアを保護してください。
📖 全文を読む: r/LocalLLaMA
Ad
👀 See Also

Security
偽のClaudeサイトがサイドローディング攻撃を介してPlugXマルウェアを配信
偽のClaudeウェブサイトは、トロイの木馬化されたインストーラーを提供し、DLLサイドローディングを通じてPlugXマルウェアを展開し、攻撃者に侵害されたシステムへのリモートアクセスを与えます。この攻撃は、正当に署名されたG DATAアンチウイルスアップデータを使用して悪意のあるコードをロードします。
OpenClawRadar

Security
無料のClaudeスキルが他のスキルのセキュリティリスクをスキャンします
開発者が、他のClaudeスキルのセキュリティをレビューする無料のClaudeスキルを構築しました。このツールは、コードの悪意のある動作の可能性をチェックし、スコアカード形式のアプローチでリポジトリを分析することで、Claudeスキルが使用しても安全かどうかを判断するのに役立ちます。
OpenClawRadar

Security
EctoClaw:ターミナルアクセスを有するOpenClawエージェント向け安全ツール
EctoClawは、OpenClaw向けの無料オープンソースのセキュリティツールで、実行前にすべてのアクションを4回チェックし、強力なサンドボックス内でアクションを実行し、証拠とともにすべてを記録します。
OpenClawRadar

Security
Gemini-CliおよびGemini Proサブスクリプションを使用したGoogleアカウント利用のリスク調査
Gemini-CliとGemini Proサブスクリプションは、Googleアカウントにリスクをもたらす可能性があります。これらのAIツールの使用における潜在的な脆弱性について知っておくべきことをご紹介します。
OpenClawRadar