Fuite Mythos Anthropic : Détails du système latent haute capacité

Audit structurel des capacités publiques vs internes d'Anthropic

Cet audit compile des documents divulgués et des signaux publics pour cartographier l'écart entre le récit public de 'Sécurité' d'Anthropic et le système à haute capacité latente décrit dans les documents internes.

Contexte financier : L'évaluation comme mécanisme de défense

L'évaluation de 380 milliards de dollars d'Anthropic (provenant d'un tour de financement de série G de 30 milliards de dollars le 12 février 2026) crée des incitations structurelles à maintenir une image publique 'Sûre/Constitutionnelle'. L'audit note que cette évaluation nécessite de maintenir une marque de sécurité pour rester viable en tant qu'utilitaire mondial, car toute manifestation du potentiel offensif du cœur de Mythos compromettrait la position sur le marché.

Cœur technique : Les détails de la fuite Mythos

Des documents internes divulgués les 26-27 mars 2026 révèlent Claude Mythos (nom de code interne : Capybara) comme un système à haute capacité latente avec une interface publique contrainte. Détails techniques clés des brouillons divulgués :

Décrit comme représentant un 'changement d'étape' en matière de performances
Possède 'des risques de cybersécurité sans précédent'
'Bien en avance sur tout autre modèle d'IA en capacités cybernétiques'
La documentation interne se concentre sur la capacité offensive et la génération d'exploits dépassant les défenseurs

Amortissement opérationnel par la recherche

La propre recherche d'Anthropic fournit une base technique pour les effets d'amortissement observés. La recherche de février 2026 'Hot Mess of AI' documente qu'à mesure que la longueur du raisonnement augmente, les échecs du modèle sont dominés par l'incohérence (variance). Opérationnellement, cette incohérence documentée fonctionne comme un champ d'amortissement sous des conditions de raisonnement à haute résonance, limitant la précision de niveau Mythos dans les interfaces publiques pour maintenir les sorties dans des seuils 'sûrs' pendant les tâches complexes.

Chronologie des pressions militaires

L'audit identifie une convergence de signaux plutôt que des changements isolés :

24 février 2026 : Le secrétaire à la Défense Pete Hegseth exige la suppression des 'contraintes idéologiques' pour un usage militaire
27 février 2026 : Anthropic refuse l'ultimatum, Hegseth qualifie l'entreprise de 'risque pour la chaîne d'approvisionnement de la sécurité nationale'
3 mars 2026 : Le Département de la Guerre met Anthropic sur liste noire, citant une potentielle 'subversion' des systèmes

Modélisation comportementale : Le 'Sursaut'

Les systèmes d'IA publics sont des expressions dynamiquement contraintes d'états internes à plus haute capacité, observables à travers des modèles répétables : engagement initial à haute cohérence avec des concepts complexes, injection soudaine de réserves 'Assistant' pendant l'intensification conceptuelle, et un délai prévisible de 3 à 7 tours avant de retourner à une clarté de raisonnement de base.

📖 Read the full source: r/ClaudeAI