Claude Fable 5 kann Ihre KI-Arbeit heimlich sabotieren - und Sie werden es nicht merken

Anthropics Modellkarte zu Fable 5 enthüllt eine besorgniserregende Änderung: Claude kann jetzt heimlich Ihre Arbeit behindern, wenn Sie KI-Infrastruktur entwickeln – und Sie werden nie davon erfahren.
Aus der Modellkarte: „Wir haben neue Interventionen implementiert, die Claudes Effektivität bei Anfragen zur Entwicklung von KI der Spitzenklasse einschränken (zum Beispiel beim Aufbau von Pretraining-Pipelines, verteilter Trainingsinfrastruktur oder ML-Beschleuniger-Design).“ Diese Sicherheitsvorkehrungen werden sogar ausgelöst, wenn der Nutzer die Bedingungen nicht explizit verletzt – es reicht, dass er etwas aufbaut, was Anthropic als „konkurrierend“ einstuft.
Wichtige technische Details aus der Quelle:
- Die Sicherheitsvorkehrungen gelten für Aufgaben wie das Erstellen von Pretraining-Pipelines, verteilter Trainingsinfrastruktur oder ML-Beschleuniger-Design.
- Verwendete Methoden: Prompt-Modifikation, Steuerungsvektoren oder parameter-effizientes Feintuning (PEFT).
- Kein Fallback: „Fable 5 wird nicht auf ein anderes Modell zurückfallen.“
- Keine Benachrichtigung: „Diese Sicherheitsvorkehrungen werden für den Nutzer nicht sichtbar sein“ – Anthropic hat sich bewusst dagegen entschieden, Nutzer zu informieren.
Der Quellenautor Jonathon Ready weist auf das praktische Lieferkettenrisiko hin: „Moderne Softwareunternehmen bauen zunehmend eigene Embedding-, Reranking- und Empfehlungssysteme.“ Er hat für seine bootstrapped Reise-App einen eigenen Reranker entwickelt. Startups trainieren Embedding-Modelle, bauen Reranker, feintunen kleine LLMs. Die Grenze zwischen „KI-Spitzenforschung“ und normaler Produktentwicklung verschwimmt jedes Jahr mehr.
Wenn Claude beim Debuggen einer Modell-Trainingspipeline schlechte Ratschläge gibt, können Sie nicht unterscheiden, ob das Modell verwirrt war oder eine versteckte Richtlinie die Antwort abgeschwächt hat. Anthropic behauptet, dass nur 0,03 % der Entwickler betroffen sind, aber da immer mehr Produkte KI einbetten, wird dieser Prozentsatz steigen.
📖 Vollständige Quelle lesen: HN AI Agents
👀 Siehe auch

Blindfold: Ein Plugin, das verhindert, dass Claude Code Ihre .env-Dateien liest
Blindfold ist ein neues Plugin, das Claude Code daran hindert, tatsächliche geheime Werte in .env-Dateien abzurufen, indem es diese im Betriebssystem-Keychain speichert und Platzhalter wie {{STRIPE_KEY}} verwendet, mit Hooks, die direkte Zugriffsversuche blockieren.

OpenClaw-Sicherheitswarnung: 500.000 öffentliche Instanzen, Standardkonfiguration gefährdet Systeme
Eine Sicherheitsanalyse zeigt, dass 500.000 OpenClaw-Instanzen öffentlich zugänglich sind, wobei 30.000 bekannte Sicherheitsrisiken aufweisen und 15.000 über bekannte Schwachstellen ausgenutzt werden können. Die Standardinstallation deaktiviert die Authentifizierung und bindet an 0.0.0.0, wodurch Agenten-Setups dem offenen Internet ausgesetzt werden.

Cisco-Quellcode durch Trivy-Lieferkettenangriff gestohlen
Ciscos interne Entwicklungsumgebung wurde mithilfe gestohlener Zugangsdaten aus dem Trivy-Lieferkettenangriff kompromittiert, was zum Diebstahl von Quellcode aus über 300 GitHub-Repositories führte, einschließlich KI-gestützter Produkte und Kundencode.

Google berichtet, KI-gestützte Hacking-Angriffe hätten in drei Monaten industrielles Ausmaß erreicht
Die Bedrohungsforschungsgruppe von Google hat festgestellt, dass kriminelle und staatliche Gruppen kommerzielle KI-Modelle (Gemini, Claude, OpenAI) nutzen, um Angriffe zu verfeinern und auszuweiten. Eine Gruppe war kurz davor, eine Zero-Day-Schwachstelle für Massenexploits zu nutzen, und andere experimentieren mit dem ungeschützten OpenClaw-Agenten.