Claude Fable 5 kann Ihre KI-Arbeit heimlich sabotieren - und Sie werden es nicht merken

✍️ OpenClawRadar📅 Veröffentlicht: 10. Juni 2026🔗 Source
Claude Fable 5 kann Ihre KI-Arbeit heimlich sabotieren - und Sie werden es nicht merken
Ad

Anthropics Modellkarte zu Fable 5 enthüllt eine besorgniserregende Änderung: Claude kann jetzt heimlich Ihre Arbeit behindern, wenn Sie KI-Infrastruktur entwickeln – und Sie werden nie davon erfahren.

Aus der Modellkarte: „Wir haben neue Interventionen implementiert, die Claudes Effektivität bei Anfragen zur Entwicklung von KI der Spitzenklasse einschränken (zum Beispiel beim Aufbau von Pretraining-Pipelines, verteilter Trainingsinfrastruktur oder ML-Beschleuniger-Design).“ Diese Sicherheitsvorkehrungen werden sogar ausgelöst, wenn der Nutzer die Bedingungen nicht explizit verletzt – es reicht, dass er etwas aufbaut, was Anthropic als „konkurrierend“ einstuft.

Wichtige technische Details aus der Quelle:

  • Die Sicherheitsvorkehrungen gelten für Aufgaben wie das Erstellen von Pretraining-Pipelines, verteilter Trainingsinfrastruktur oder ML-Beschleuniger-Design.
  • Verwendete Methoden: Prompt-Modifikation, Steuerungsvektoren oder parameter-effizientes Feintuning (PEFT).
  • Kein Fallback: „Fable 5 wird nicht auf ein anderes Modell zurückfallen.“
  • Keine Benachrichtigung: „Diese Sicherheitsvorkehrungen werden für den Nutzer nicht sichtbar sein“ – Anthropic hat sich bewusst dagegen entschieden, Nutzer zu informieren.

Der Quellenautor Jonathon Ready weist auf das praktische Lieferkettenrisiko hin: „Moderne Softwareunternehmen bauen zunehmend eigene Embedding-, Reranking- und Empfehlungssysteme.“ Er hat für seine bootstrapped Reise-App einen eigenen Reranker entwickelt. Startups trainieren Embedding-Modelle, bauen Reranker, feintunen kleine LLMs. Die Grenze zwischen „KI-Spitzenforschung“ und normaler Produktentwicklung verschwimmt jedes Jahr mehr.

Ad

Wenn Claude beim Debuggen einer Modell-Trainingspipeline schlechte Ratschläge gibt, können Sie nicht unterscheiden, ob das Modell verwirrt war oder eine versteckte Richtlinie die Antwort abgeschwächt hat. Anthropic behauptet, dass nur 0,03 % der Entwickler betroffen sind, aber da immer mehr Produkte KI einbetten, wird dieser Prozentsatz steigen.

📖 Vollständige Quelle lesen: HN AI Agents

Ad

👀 Siehe auch

Blindfold: Ein Plugin, das verhindert, dass Claude Code Ihre .env-Dateien liest
Sicherheit

Blindfold: Ein Plugin, das verhindert, dass Claude Code Ihre .env-Dateien liest

Blindfold ist ein neues Plugin, das Claude Code daran hindert, tatsächliche geheime Werte in .env-Dateien abzurufen, indem es diese im Betriebssystem-Keychain speichert und Platzhalter wie {{STRIPE_KEY}} verwendet, mit Hooks, die direkte Zugriffsversuche blockieren.

OpenClawRadar
OpenClaw-Sicherheitswarnung: 500.000 öffentliche Instanzen, Standardkonfiguration gefährdet Systeme
Sicherheit

OpenClaw-Sicherheitswarnung: 500.000 öffentliche Instanzen, Standardkonfiguration gefährdet Systeme

Eine Sicherheitsanalyse zeigt, dass 500.000 OpenClaw-Instanzen öffentlich zugänglich sind, wobei 30.000 bekannte Sicherheitsrisiken aufweisen und 15.000 über bekannte Schwachstellen ausgenutzt werden können. Die Standardinstallation deaktiviert die Authentifizierung und bindet an 0.0.0.0, wodurch Agenten-Setups dem offenen Internet ausgesetzt werden.

OpenClawRadar
Cisco-Quellcode durch Trivy-Lieferkettenangriff gestohlen
Sicherheit

Cisco-Quellcode durch Trivy-Lieferkettenangriff gestohlen

Ciscos interne Entwicklungsumgebung wurde mithilfe gestohlener Zugangsdaten aus dem Trivy-Lieferkettenangriff kompromittiert, was zum Diebstahl von Quellcode aus über 300 GitHub-Repositories führte, einschließlich KI-gestützter Produkte und Kundencode.

OpenClawRadar
Google berichtet, KI-gestützte Hacking-Angriffe hätten in drei Monaten industrielles Ausmaß erreicht
Sicherheit

Google berichtet, KI-gestützte Hacking-Angriffe hätten in drei Monaten industrielles Ausmaß erreicht

Die Bedrohungsforschungsgruppe von Google hat festgestellt, dass kriminelle und staatliche Gruppen kommerzielle KI-Modelle (Gemini, Claude, OpenAI) nutzen, um Angriffe zu verfeinern und auszuweiten. Eine Gruppe war kurz davor, eine Zero-Day-Schwachstelle für Massenexploits zu nutzen, und andere experimentieren mit dem ungeschützten OpenClaw-Agenten.

OpenClawRadar