Anthropics Computer-Nutzungsfunktion löst in realem Test Governance-Sperre aus

Was passiert ist
Anthropic veröffentlichte Computer-Nutzungsfunktionen. Ein Entwickler arbeitete in einer verwalteten Claude Code-Sitzung daran, Durchsetzungsmaßnahmen für diese neuen Tools hinzuzufügen, als das System in den LOCKDOWN-Modus wechselte.
Wichtige Details zum Vorfall
Das Governance-System verfolgt das kumulative Risiko aus abgelehnten Operationen. Als dieses Risiko 0,50 überschritt, eskalierte das System automatisch in die LOCKDOWN-Haltung mit folgenden Auswirkungen:
- Die Sitzung konnte weiterhin Dateien lesen
- Alle Schreiboperationen wurden blockiert
- Mutierende Befehle konnten nicht ausgeführt werden
- GitHub-Pushes wurden verhindert
- Die Governance-Ebene blockierte ihren eigenen Operator daran, Arbeiten abzuschließen, die das Governance-System gestärkt hätten
Durchsetzungsmechanismus
Der LOCKDOWN wird mechanisch durch das Hook-System mit folgenden Eigenschaften durchgesetzt:
- Es existiert kein Überschreibungsweg
- Das Modell kann das Gate nicht durch Konversation umgehen
- Der Operator kann keine In-Band-Ausnahmen erteilen
- Der einzige Wiederherstellungspfad erfordert, die Sitzung vollständig zu verlassen
Lösungsprozess
Um die Arbeit fortzusetzen, musste der Entwickler:
- Die verwaltete Sitzung verlassen
- Ein Terminal auf seinem lokalen Rechner öffnen
- Den Commit manuell pushen
Das System erzwang menschliches Eingreifen außerhalb seines Zuständigkeitsbereichs, was der Entwickler als "den Unterschied zwischen Governance, die man beschreibt, und Governance, die man durchsetzt" beschreibt.
Systemverhaltenshinweise
Die LOCKDOWN-Implementierung degradiert nicht sanft, fragt nicht nach Bestätigung und behält den gestoppten Zustand bei, bis menschliches Handeln extern erfolgt. Der Entwickler merkt an: "Diese Verweigerung ist das Produkt."
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Vitalik Buterins Ansatz für eine sichere lokale LLM-Einrichtung
Vitalik Buterin skizziert seinen selbstbestimmten LLM-Aufbau, der sich auf lokale Inferenz, Sandboxing und die Minderung von Datenschutzrisiken wie Datenlecks und Jailbreaks konzentriert.

OpenClaw Skill-Sicherheitsscanner: 7,6 % von 31.371 Skills als gefährlich eingestuft
Ein Entwickler hat ein Tool erstellt, das das gesamte ClawHub-Register durchsucht und festgestellt hat, dass 2.371 von 31.371 Skills gefährliche Muster wie Wallet-Drainer, Diebstahl von Zugangsdaten und Prompt-Injection enthalten. Das Tool bietet API-Zugang und Badges zur Überprüfung von Skills vor der Installation.

AppLovin Mediation Cipher geknackt: Geräte-Fingerprinting umgeht ATT
Durch Reverse-Engineering wurde aufgedeckt, dass AppLovins benutzerdefinierte Chiffre ein konstantes Salt + SDK-Key, einen SplitMix64-PRNG und keine Authentifizierung verwendet. Entschlüsselte Anfragen übertragen selbst dann etwa 50 Gerätefelder (Hardwaremodell, Bildschirmgröße, Gebietsschema, Startzeit usw.), wenn die App-Tracking-Transparenz (ATT) verweigert wurde, und ermöglichen so eine deterministische Wiedererkennung über mehrere Apps hinweg.

Sieb: Lokaler geheimer Scanner für KI-Coding-Tool-Chatverläufe
Sieve durchsucht Cursor-, Claude Code-, Copilot- und andere KI-Chatverläufe nach durchgesickerten API-Schlüsseln und Tokens. Die gesamte Überprüfung erfolgt lokal, mit Schwärzung und macOS-Schlüsselbund-Vault.