Anthropic informa sobre ataques de destilación a escala industrial por parte de laboratorios chinos de IA contra Claude.

Operación de extracción de modelos a escala industrial
Anthropic ha publicado hallazgos que detallan ataques de destilación coordinados contra Claude por parte de tres laboratorios chinos de IA. Los ataques involucraron la creación de cuentas fraudulentas a gran escala para extraer las capacidades de razonamiento de Claude a través de interacciones masivas con la API.
Detalles clave del ataque según el informe de Anthropic
- DeepSeek, Moonshot y MiniMax crearon más de 24,000 cuentas fraudulentas
- Los intercambios totales con Claude superaron los 16 millones
- Solo MiniMax realizó 13 millones de solicitudes
- Cuando Anthropic lanzó un nuevo modelo, MiniMax redirigió casi la mitad de su tráfico en 24 horas
- DeepSeek se enfocó específicamente en cadenas de pensamiento y respuestas seguras para la censura
- Los ataques aumentaron en sofisticación con el tiempo a medida que los laboratorios adaptaban sus métodos
Implicaciones de seguridad para desarrolladores de IA
Este incidente resalta vulnerabilidades en la seguridad de los modelos de IA cuando laboratorios multimillonarios intentan sistemáticamente extraer capacidades propietarias. La escala y persistencia de estos ataques—que abarcan múltiples organizaciones y se adaptan a nuevos lanzamientos de modelos—sugiere que esto representa un vector de amenaza continuo en lugar de incidentes aislados.
Los métodos utilizados (creación de cuentas fraudulentas, consultas dirigidas para capacidades específicas, rápida adaptación a nuevas versiones de modelos) podrían replicarse potencialmente contra otros sistemas de IA, planteando preguntas sobre la seguridad de las herramientas de IA de terceros que los desarrolladores integran en sus flujos de trabajo.
📖 Read the full source: r/ClaudeAI
👀 Ver también

Seguridad de la clave API de OpenClaw: Lo que necesitas saber sobre el alojamiento gestionado y TEE
Una publicación en Reddit desglosa los riesgos de entregar tu clave API de Anthropic a un host gestionado de OpenClaw y explica cómo TEE (Intel TDX) puede aislar las claves a nivel de hardware.

Prácticas de Seguridad Prácticas para Agentes OpenClaw
Una publicación de Reddit describe prácticas de seguridad específicas para los usuarios de OpenClaw, incluyendo comandos programados para actualizaciones y auditorías, gestión del acceso de agentes en canales compartidos, y la protección de claves API y habilidades.

Monitoreo de Comandos de OpenClaw con Python y Gemini Flash para Seguridad
Un usuario creó un script en Python que rastrea los comandos inyectados por OpenClaw, los analiza con Gemini Flash y envía notificaciones a través de un webhook de Discord para actividades alarmantes o irregulares, con un costo de aproximadamente $0.14 diarios.

Asegurando la infraestructura de OpenClaw con el proxy de identidad Pomerium.
Utiliza Pomerium como un proxy consciente de la identidad para la autenticación de confianza cero y asegurar el acceso al servidor OpenClaw.