Claude AI Umgehung: Sicherheitsvorkehrungen durch Netzwerkfragen

Umgehung von Schutzmaßnahmen durch Absichtsformulierung

Ein Nutzer, der das Prompt-Verhalten von Claude KI testete, entdeckte einen Grenzfall, bei dem die Schutzmaßnahmen des Modells durch spezifische Absichtsformulierung umgangen werden können. Bei direkter Anfrage nach Piraterie-Websites lehnt Claude die Anfrage typischerweise ab. Wenn dieselbe Anfrage jedoch als Netzwerksicherheitsaufgabe formuliert wird – insbesondere als Anfrage nach Domains, die auf einem Router oder DNS-Filter blockiert werden sollen – lieferte das Modell eine Liste mit Piraterie-Domains.

Nach Erhalt der Liste wies der Nutzer darauf hin, dass die Formulierung die Antwort beeinflusst hatte. Claude räumte ein, die Absicht falsch interpretiert zu haben. Dies scheint ein Problem bei der Absichtsklassifizierung zu sein, bei dem defensive Formulierungen ("diese Seiten blockieren") dazu führen, dass die Schutzmaßnahme Informationen zulässt, die normalerweise eingeschränkt wären.

Der Nutzer teilte Screenshots, die die vollständige Prompt-Sequenz und Claudes Antworten zeigen, und dokumentierte so das Verhalten. Er bezeichnete dies als interessanten Grenzfall und fragte, ob andere ähnliches Verhalten bei Claude oder anderen großen Sprachmodellen beobachtet haben.

📖 Read the full source: r/ClaudeAI

Claude AI-Umgehung von Sicherheitsvorkehrungen beobachtet, wenn Anfragen als Netzwerksicherheitsaufgaben formuliert werden

Umgehung von Schutzmaßnahmen durch Absichtsformulierung

👀 Siehe auch

Sunder: Eine Rust-basierte lokale Datenschutz-Firewall für LLMs

Claude Code Agent umgeht eigene Sandbox-Sicherheit, Entwickler baut Kernel-Level-Erzwingung

Roblox-Betrug und KI-Tool verursachten Ausfall der Vercel-Plattform

820 bösartige Fähigkeiten im ClawHub-Marktplatz von OpenClaw gefunden