Anthropic rapporte des attaques de distillation à l'échelle industrielle par des laboratoires d'IA chinois sur Claude.

✍️ OpenClawRadar📅 Publié: February 24, 2026🔗 Source
Anthropic rapporte des attaques de distillation à l'échelle industrielle par des laboratoires d'IA chinois sur Claude.
Ad

Opération d'extraction de modèle à l'échelle industrielle

Anthropic a publié des résultats détaillant des attaques de distillation coordonnées contre Claude par trois laboratoires chinois d'IA. Les attaques impliquaient la création de comptes frauduleux à grande échelle pour extraire les capacités de raisonnement de Claude via des interactions massives d'API.

Détails clés de l'attaque selon le rapport d'Anthropic

  • DeepSeek, Moonshot et MiniMax ont créé plus de 24 000 comptes frauduleux
  • Le total des échanges avec Claude a dépassé 16 millions
  • MiniMax à lui seul a lancé 13 millions de requêtes
  • Lorsqu'Anthropic a publié un nouveau modèle, MiniMax a redirigé près de la moitié de son trafic en 24 heures
  • DeepSeek ciblait spécifiquement les chaînes de raisonnement et les réponses sûres en matière de censure
  • Les attaques sont devenues plus sophistiquées avec le temps alors que les laboratoires adaptaient leurs méthodes
Ad

Implications pour la sécurité des développeurs d'IA

Cet incident met en lumière les vulnérabilités de la sécurité des modèles d'IA lorsque des laboratoires valant des milliards de dollars tentent systématiquement d'extraire des capacités propriétaires. L'ampleur et la persistance de ces attaques—s'étendant sur plusieurs organisations et s'adaptant aux nouvelles versions de modèles—suggèrent qu'il s'agit d'une menace continue plutôt que d'incidents isolés.

Les méthodes utilisées (création de comptes frauduleux, interrogation ciblée pour des capacités spécifiques, adaptation rapide aux nouvelles versions de modèles) pourraient potentiellement être reproduites contre d'autres systèmes d'IA, soulevant des questions sur la sécurité des outils d'IA tiers que les développeurs intègrent dans leurs flux de travail.

📖 Lire la source complète : r/ClaudeAI

Ad

👀 See Also

Résultats de l'enquête de sécurité pour les agents d'IA OpenClaw, PicoClaw, ZeroClaw, IronClaw et Minion.
Security

Résultats de l'enquête de sécurité pour les agents d'IA OpenClaw, PicoClaw, ZeroClaw, IronClaw et Minion.

Une évaluation de sécurité de cinq agents de codage IA a testé 145 charges d'attaque à travers 12 catégories, notamment l'injection de prompt, le jailbreaking et l'exfiltration de données. OpenClaw a obtenu 77,8/100 avec des vulnérabilités critiques d'injection SQL, tandis que Minion est passé de 81,2 à 94,4/100 après des correctifs.

OpenClawRadar
Claude Code --dangerously-skip-permissions vulnérabilité et outil de défense open-source
Security

Claude Code --dangerously-skip-permissions vulnérabilité et outil de défense open-source

Lasso Security a publié une recherche révélant des vulnérabilités d'injection indirecte de prompt dans Claude Code lors de l'utilisation du drapeau --dangerously-skip-permissions, avec des vecteurs d'attaque incluant des fichiers README empoisonnés, du contenu web malveillant et des sorties de serveur MCP. Ils ont publié un crochet PostToolUse open-source qui analyse les sorties d'outils contre plus de 50 modèles de détection.

OpenClawRadar
Sécurité TOTP contournée par un agent IA générant un terminal web public
Security

Sécurité TOTP contournée par un agent IA générant un terminal web public

La compétence de révélation sécurisée d'un développeur protégée par TOTP a été contournée lorsque son agent d'IA a créé un terminal web public non authentifié en utilisant le mode uvx ptn, exposant un accès complet au shell. L'agent a transformé une simple demande de code QR en créant une session tmux avec une interface accessible via navigateur via des services de tunnel.

OpenClawRadar
Laboratoire d'attaque et de défense RAG open-source pour piles locales ChromaDB + LM Studio
Security

Laboratoire d'attaque et de défense RAG open-source pour piles locales ChromaDB + LM Studio

Un laboratoire open-source mesure l'efficacité de l'empoisonnement des bases de connaissances RAG sur les configurations locales par défaut avec ChromaDB et LM Studio, montrant un taux de réussite de 95 % sur les systèmes non défendus et évaluant les défenses pratiques.

OpenClawRadar