Distillation de Claude par DeepSeek: 24k Faux Comptes

Opération de distillation à grande échelle

Le rapport d'Anthropic documente les efforts systématiques de distillation par trois entreprises chinoises d'IA : DeepSeek, Moonshot AI et MiniMax. L'opération a impliqué la création d'environ 24 000 faux comptes et la réalisation de plus de 16 millions d'échanges avec Claude via des réseaux proxy qui géraient jusqu'à 20 000 comptes simultanément.

Méthodes de distillation spécifiques

DeepSeek a demandé à Claude d'expliquer son propre raisonnement étape par étape, puis a utilisé ces explications comme données d'entraînement. Ils ont également incité Claude à répondre à des questions politiquement sensibles sur les dissidents chinois pour constituer des données de navigation de la censure. MiniMax a réalisé plus de 13 millions d'échanges et est passé à un nouveau modèle Claude dans les 24 heures suivant sa sortie.

Implications pour la sécurité des utilisateurs

Le rapport indique clairement que les modèles distillés sont peu susceptibles de conserver les mécanismes de sécurité d'origine. Alors que les questions courantes donnent des réponses similaires entre les modèles originaux et copiés, les cas limites impliquant des sujets médicaux, juridiques ou nuancés révèlent des différences critiques. Les modèles copiés « avancent avec une fausse confiance » parce que l'entraînement qui enseignait la prudence a été perdu lors de la distillation.

Anthropic compare cela à avoir un médecin qui n'a observé de vrais médecins que par la fenêtre pendant un an—les cas de routine pourraient être traités de manière adéquate, mais les cas compliqués n'offrent aucune garantie, et les utilisateurs ne peuvent pas distinguer les cas de routine des cas complexes avant qu'il ne soit trop tard.

Implications pour l'évaluation des modèles

Le rapport note un effet contre-intuitif : le désaccord entre les modèles devient plus précieux après la distillation. Si deux modèles qui pourraient partager des capacités distillées donnent toujours des réponses différentes, au moins l'un d'eux a engagé un raisonnement indépendant. L'accord entre les modèles devient moins significatif, tandis que le désaccord indique un traitement véritablement indépendant.

📖 Lire la source complète : r/ClaudeAI