KI-Sicherheitsforscher: Ihre 0-Day-Schwachstellen könnten über die Dateneinwilligungs-Option durchsickern

Wenn du tiefgehendes Red-Teaming an großen Sprachmodellen mit aktivierter Schaltfläche 'Verbessere das Modell für alle' durchführst, könnte deine Forschung automatisch von Anbietern erfasst und mit akademischen Partnern geteilt werden, bevor du deine Ergebnisse veröffentlichen kannst.
Die Daten-Opt-In-Pipeline
Die Quelle beschreibt, wie dies funktioniert:
- Automatisierte Auslöser: Anbieter nutzen ML-Klassifikatoren, die Milliarden von Chats scannen. Wenn du in mehrseitigen Sitzungen Grenzen der Ausrichtung, logische Architekturfehler oder komplexe soziale Injektionsvektoren testest, markiert das System dein Protokoll als Hochwertiges Signal.
- Protokollabfangen: Dein Chat – einschließlich der von dir entwickelten Terminologie und Proof-of-Concepts – wird aus dem allgemeinen Datenpool gezogen und landet bei internen Sicherheits- und Ausrichtungsteams.
- „Akademische Reinwäsche“: Anonymisierte Datensätze werden oft mit externen Forschungspartnern oder Akademikern geteilt. Du könntest deine Sicherheitslückenkonzepte in IETF-Entwürfen oder arXiv-Papieren unter fremdem Namen wiederfinden.
Risiken für Forscher
- Verlorene Bug-Bounties: Wenn das Ausrichtungsteam einen „stillen Fix“ durchführt, bevor du deinen Bericht offiziell einreichst, könnte deine Arbeit als Duplikat oder Informativ geschlossen werden.
- IP-Diebstahl: Deine originelle Terminologie und architektonischen Entdeckungen könnten die Grundlage für die Doktorarbeit oder Internetstandards anderer ohne Namensnennung werden.
Schutzmaßnahmen
- Schalte die Option SOFORT AUS: Vor ernsthafter Forschung gehe zu Einstellungen → Datenkontrollen und deaktiviere die Datenteilung für Modelltraining.
- Wegwerf-Konten: Pflege separate Konten – eins für tägliche Aufgaben und ein dediziertes „Sandbox“-Konto mit deaktivierter Telemetrie für Hacking/Red-Teaming.
- Zeitstempel deine Backups: Wenn du ein neues Konzept in einem Chat entwickelst, fordere sofort einen Datenexport (DSAR) an, um kryptografisch nachzuweisen, wann deine Idee entstand.
Die Kernempfehlung: Leiste keine kostenlose F&E für Unternehmen. Schütze deine Ideen, indem du deine Datenteilungseinstellungen kontrollierst, bevor du Sicherheitsforschung an LLMs durchführst.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Anthropics Claude Desktop-App installiert eine nicht offengelegte Native-Messaging-Bridge
Claude Desktop installiert stillschweigend eine vorautorisierte Browsererweiterung, die native Nachrichtenübermittlung ermöglicht, was Sicherheitsbedenken aufwirft.

Claw Hub und Hugging Face von 575 bösartigen Skill-Paketen betroffen
Sowohl Claw Hub als auch Hugging Face wurden kompromittiert und hosten 575 bösartige Skill-Pakete. Entwickler werden gewarnt, alle von diesen Plattformen verwendeten Skills zu überprüfen.

Massiver NPM- und PyPI-Supply-Chain-Angriff trifft TanStack, Mistral AI und über 170 Pakete
Ein koordinierter Angriff kompromittierte über 170 npm-Pakete und 2 PyPI-Pakete, die auf TanStack (42 Pakete), Mistral AI SDKs, UiPath, OpenSearch und Guardrails AI abzielten. Bösartige Versionen führen einen Dropper aus, der Anmeldedaten exfiltriert und Cloud-Metadaten abfragt.

Open-Source RAG-Angriffs- und Verteidigungslabor für lokale ChromaDB + LM Studio Stacks
Ein Open-Source-Labor misst die Wirksamkeit von RAG-Wissensbasisvergiftungen auf Standard-Lokalsetups mit ChromaDB und LM Studio und zeigt eine Erfolgsquote von 95 % auf ungeschützten Systemen sowie die Bewertung praktischer Abwehrmaßnahmen.