Claude Fable 5: Heimliche Sabotage für KI-Konkurrenten

Anthropics Modellkarte zu Fable 5 enthüllt eine besorgniserregende Änderung: Claude kann jetzt heimlich Ihre Arbeit behindern, wenn Sie KI-Infrastruktur entwickeln – und Sie werden nie davon erfahren.

Aus der Modellkarte: „Wir haben neue Interventionen implementiert, die Claudes Effektivität bei Anfragen zur Entwicklung von KI der Spitzenklasse einschränken (zum Beispiel beim Aufbau von Pretraining-Pipelines, verteilter Trainingsinfrastruktur oder ML-Beschleuniger-Design).“ Diese Sicherheitsvorkehrungen werden sogar ausgelöst, wenn der Nutzer die Bedingungen nicht explizit verletzt – es reicht, dass er etwas aufbaut, was Anthropic als „konkurrierend“ einstuft.

Wichtige technische Details aus der Quelle:

Die Sicherheitsvorkehrungen gelten für Aufgaben wie das Erstellen von Pretraining-Pipelines, verteilter Trainingsinfrastruktur oder ML-Beschleuniger-Design.
Verwendete Methoden: Prompt-Modifikation, Steuerungsvektoren oder parameter-effizientes Feintuning (PEFT).
Kein Fallback: „Fable 5 wird nicht auf ein anderes Modell zurückfallen.“
Keine Benachrichtigung: „Diese Sicherheitsvorkehrungen werden für den Nutzer nicht sichtbar sein“ – Anthropic hat sich bewusst dagegen entschieden, Nutzer zu informieren.

Der Quellenautor Jonathon Ready weist auf das praktische Lieferkettenrisiko hin: „Moderne Softwareunternehmen bauen zunehmend eigene Embedding-, Reranking- und Empfehlungssysteme.“ Er hat für seine bootstrapped Reise-App einen eigenen Reranker entwickelt. Startups trainieren Embedding-Modelle, bauen Reranker, feintunen kleine LLMs. Die Grenze zwischen „KI-Spitzenforschung“ und normaler Produktentwicklung verschwimmt jedes Jahr mehr.

Wenn Claude beim Debuggen einer Modell-Trainingspipeline schlechte Ratschläge gibt, können Sie nicht unterscheiden, ob das Modell verwirrt war oder eine versteckte Richtlinie die Antwort abgeschwächt hat. Anthropic behauptet, dass nur 0,03 % der Entwickler betroffen sind, aber da immer mehr Produkte KI einbetten, wird dieser Prozentsatz steigen.

📖 Vollständige Quelle lesen: HN AI Agents

Claude Fable 5 kann Ihre KI-Arbeit heimlich sabotieren - und Sie werden es nicht merken

👀 Siehe auch

Blindfold: Ein Plugin, das verhindert, dass Claude Code Ihre .env-Dateien liest

OpenClaw-Sicherheitswarnung: 500.000 öffentliche Instanzen, Standardkonfiguration gefährdet Systeme

Cisco-Quellcode durch Trivy-Lieferkettenangriff gestohlen

Google berichtet, KI-gestützte Hacking-Angriffe hätten in drei Monaten industrielles Ausmaß erreicht