Claude Destilado por DeepSeek, Moonshot e MiniMax: Relatório Anthropic

Operação de Destilação em Grande Escala

O relatório da Anthropic documenta esforços sistemáticos de destilação por três empresas chinesas de IA: DeepSeek, Moonshot AI e MiniMax. A operação envolveu a criação de aproximadamente 24.000 contas falsas e a realização de mais de 16 milhões de interações com o Claude por meio de redes de proxy que executavam até 20.000 contas simultaneamente.

Métodos Específicos de Destilação

A DeepSeek fez com que o Claude explicasse seu próprio raciocínio passo a passo, depois usou essas explicações como dados de treinamento. Eles também solicitaram que o Claude respondesse a questões politicamente sensíveis sobre dissidentes chineses para construir dados de navegação de censura. A MiniMax realizou mais de 13 milhões de interações e migrou para um novo modelo do Claude em até 24 horas após seu lançamento.

Implicações de Segurança para os Usuários

O relatório afirma diretamente que os modelos destilados provavelmente não retêm os mecanismos de segurança originais. Embora perguntas rotineiras produzam respostas semelhantes entre os modelos originais e copiados, casos extremos envolvendo tópicos médicos, legais ou complexos revelam diferenças críticas. Os modelos copiados "avançam com falsa confiança" porque o treinamento que ensinou cautela foi perdido durante a destilação.

A Anthropic compara isso a ter um médico que apenas observou médicos reais através de uma janela por um ano—casos rotineiros podem ser tratados adequadamente, mas casos complicados não oferecem garantias, e os usuários não conseguem distinguir entre casos rotineiros e complexos até que seja tarde demais.

Implicações para a Avaliação de Modelos

O relatório observa um efeito contraintuitivo: a discordância entre modelos se torna mais valiosa após a destilação. Se dois modelos que podem compartilhar capacidades destiladas ainda dão respostas diferentes, pelo menos um deles realizou raciocínio independente. A concordância entre modelos se torna menos significativa, enquanto a discordância indica processamento genuinamente independente.

📖 Leia a fonte completa: r/ClaudeAI

Relatório da Anthropic Detalha Destilação em Massa do Claude por Empresas Chinesas de IA

Operação de Destilação em Grande Escala

Métodos Específicos de Destilação

Implicações de Segurança para os Usuários

Implicações para a Avaliação de Modelos

👀 See Also

Por que a Direção de Ativação da Anthropic tem dificuldade em gerar JSON válido?

Atualização de Desempenho de Inferência MLX: Benchmarks e Recursos de Abril de 2026

Trabalhadores da Samsung Exigem Participação nos Lucros de Chips de IA — O que os Desenvolvedores Precisam Saber

Implantação Simplificada: Nova Configuração AWS com Um Clique para Open Claw Lançada