Anthropic revela extracción de datos a escala industrial de la IA Claude por laboratorios chinos

Anthropic ha revelado públicamente detalles sobre una operación de extracción de datos a gran escala dirigida a Claude AI. Según una publicación de Reddit que analiza la situación, esto no fue una actividad de investigación aislada, sino un esfuerzo de nivel industrial que involucró a múltiples empresas chinas de IA.
La escala de la brecha
La operación involucró a tres actores específicos: DeepSeek, Moonshot AI y MiniMax. Estos laboratorios crearon más de 24,000 cuentas fraudulentas para acceder a la API de Claude. A través de estas cuentas, extrajeron más de 16 millones de intercambios de Claude para entrenar sus propios modelos.
Distinción entre destilación legítima e ilícita
El material fuente aclara la diferencia entre las prácticas estándar de la industria y lo que ocurrió aquí:
- Destilación estándar: Usar un modelo grande para entrenar una versión más pequeña y eficiente para clientes comerciales
- Destilación ilícita: Descrita como "lavado de capacidades": extraer barreras de seguridad y estructuras lógicas de modelos estadounidenses e incorporarlas directamente en sistemas militares, de inteligencia y vigilancia extranjeros
Implicaciones más amplias
Anthropic advierte que estos ataques se están volviendo más sofisticados y frecuentes. El "sistema de honor" del uso de API parece insuficiente para prevenir tales operaciones. La empresa está pidiendo medidas defensivas coordinadas entre los principales actores de IA y los responsables políticos.
La situación destaca la vulnerabilidad de los pesos de los modelos una vez que se exponen a través de endpoints de API, incluso con las salvaguardas existentes en su lugar.
📖 Read the full source: r/ClaudeAI
👀 Ver también

Investigadores de Seguridad en IA: Tus Vulnerabilidades de Día Cero Podrían Filtrarse a través de la Opción de Inclusión de Datos
El interruptor 'Mejorar el modelo para todos' en las interfaces de LLM puede recolectar automáticamente investigaciones profundas de red-teaming, enviando tus conceptos de vulnerabilidad a los equipos de seguridad de los proveedores y potencialmente a artículos académicos antes de que publiques. Desactiva el intercambio de datos antes de realizar investigaciones de seguridad serias.

arifOS: Un núcleo de gobernanza MCP de $15 millones para la seguridad de la herramienta OpenClaw
arifOS es un servidor MCP ligero que intercepta las llamadas a herramientas de OpenClaw, las puntúa de 000 a 999 y bloquea acciones inseguras con 13 pisos de seguridad duros antes de que lleguen a sistemas de archivos, APIs o bases de datos.

Las herramientas de IA de código abierto presentan riesgos de seguridad debido a la 'ilusión de seguridad a través de la transparencia'.
Una publicación de Reddit advierte sobre malware disfrazado como agentes de IA de código abierto y herramientas, donde el código malicioso puede ocultarse en grandes bases de código que los usuarios asumen que son seguras porque están en GitHub. La publicación describe cómo la 'codificación por vibra' y los agentes de IA autónomos condicionan a los usuarios a ejecutar programas desconocidos sin revisión.

Caelguard: Escáner de seguridad de código abierto para habilidades de OpenClaw
Caelguard es un escáner con licencia MIT que se ejecuta localmente y detecta problemas de seguridad en habilidades de OpenClaw, incluyendo inyección de prompts, recolección de credenciales y cargas útiles ofuscadas. La investigación muestra que aproximadamente el 20% de las habilidades publicadas contienen patrones preocupantes.