Claude-Distillation: 24.000 Konten von chinesischen KI-Firmen entdeckt

Destillationsoperation in großem Maßstab

Der Bericht von Anthropic dokumentiert systematische Destillationsbemühungen von drei chinesischen KI-Unternehmen: DeepSeek, Moonshot AI und MiniMax. Die Operation umfasste die Erstellung von etwa 24.000 gefälschten Konten und die Durchführung von über 16 Millionen Austauschen mit Claude über Proxy-Netzwerke, die bis zu 20.000 Konten gleichzeitig betrieben.

Spezifische Destillationsmethoden

DeepSeek ließ Claude seine eigene Argumentation Schritt für Schritt erklären und nutzte diese Erklärungen dann als Trainingsdaten. Sie forderten Claude auch auf, politisch sensible Fragen zu chinesischen Dissidenten zu beantworten, um Daten zur Zensurumgehung aufzubauen. MiniMax führte mehr als 13 Millionen Austausche durch und wechselte innerhalb von 24 Stunden nach Veröffentlichung zu einem neuen Claude-Modell.

Sicherheitsauswirkungen für Nutzer

Der Bericht stellt direkt fest, dass destillierte Modelle wahrscheinlich nicht die ursprünglichen Sicherheitsmechanismen beibehalten. Während Routinefragen ähnliche Antworten zwischen Original- und kopierten Modellen liefern, zeigen Grenzfälle mit medizinischen, rechtlichen oder nuancierten Themen kritische Unterschiede. Die Kopiermodelle "rasen mit falschem Selbstvertrauen durch", weil das Training, das Vorsicht lehrte, während der Destillation verloren ging.

Anthropic vergleicht dies mit einem Arzt, der echte Ärzte ein Jahr lang nur durch ein Fenster beobachtet hat – Routinefälle könnten angemessen behandelt werden, aber komplizierte Fälle bieten keine Garantien, und Nutzer können erst zu spät zwischen Routine- und komplexen Fällen unterscheiden.

Auswirkungen auf die Modellbewertung

Der Bericht weist auf einen kontraintuitiven Effekt hin: Uneinigkeit zwischen Modellen wird nach der Destillation wertvoller. Wenn zwei Modelle, die möglicherweise destillierte Fähigkeiten teilen, immer noch unterschiedliche Antworten geben, hat mindestens eines eine unabhängige Argumentation durchgeführt. Übereinstimmung zwischen Modellen wird weniger bedeutsam, während Uneinigkeit auf echte unabhängige Verarbeitung hinweist.

📖 Read the full source: r/ClaudeAI

Anthropic-Bericht beschreibt Massen-Distillation von Claude durch chinesische KI-Firmen

Destillationsoperation in großem Maßstab

Spezifische Destillationsmethoden

Sicherheitsauswirkungen für Nutzer

Auswirkungen auf die Modellbewertung

👀 Siehe auch

Claude Code lehnt angeblich Anfragen ab oder verlangt zusätzliche Gebühren, wenn Commits 'OpenClaw' erwähnen

MeshCore-Team spaltet sich: Marke heimlich angemeldet, Streit um KI-generierten Code

AIs kaputte Ökonomie: Das Chaos von Anthropics Mythos/Fabel-Exportverbot

Wenn man Claude nach Regex fragt und es zu einem nächtlichen Tauchgang in die Compiler-Entwicklung kommt