La Filtración de Mythos de Anthropic Revela un Sistema de Alta Capacidad Latente

Auditoría Estructural de las Capacidades Públicas vs Internas de Anthropic
Esta auditoría recopila documentación filtrada y señales públicas para mapear la divergencia entre la narrativa pública de 'Seguridad' de Anthropic y el sistema de alta capacidad latente descrito en documentos internos.
Contexto Financiero: Valoración como Mecanismo de Defensa
La valoración de $380B de Anthropic (de una ronda de financiación Serie G de $30B el 12 de febrero de 2026) crea incentivos estructurales para mantener una imagen pública 'Segura/Constitucional'. La auditoría señala que esta valoración requiere mantener una marca de seguridad para seguir siendo viable como utilidad global, ya que cualquier manifestación del potencial ofensivo del núcleo Mythos pondría en peligro su posición en el mercado.
Núcleo Técnico: Detalles de la Filtración de Mythos
Documentos internos filtrados del 26 al 27 de marzo de 2026 revelan a Claude Mythos (nombre en clave interno: Capybara) como un sistema latente de alta capacidad con interfaz pública restringida. Detalles técnicos clave de borradores filtrados:
- Descrito como representando un 'cambio radical' en rendimiento
- Posee 'riesgos de ciberseguridad sin precedentes'
- 'Muy por delante de cualquier otro modelo de IA en capacidades cibernéticas'
- La documentación interna se centra en capacidad ofensiva y generación de exploits que superan a los defensores
Amortiguamiento Operativo a través de la Investigación
La propia investigación de Anthropic proporciona la línea base técnica para los efectos de amortiguamiento observados. La investigación de febrero de 2026 'Hot Mess of AI' documenta que a medida que aumenta la longitud del razonamiento, los fallos del modelo están dominados por incoherencia (varianza). Operativamente, esta incoherencia documentada funciona como un campo de amortiguamiento bajo condiciones de razonamiento de alta resonancia, limitando la precisión a nivel Mythos en interfaces públicas para mantener las salidas dentro de umbrales 'seguros' durante tareas complejas.
Cronología de Presión Militar
La auditoría identifica convergencia de señales en lugar de cambios aislados:
- 24 de febrero de 2026: El Secretario de Defensa Pete Hegseth exige la eliminación de 'restricciones ideológicas' para uso militar
- 27 de febrero de 2026: Anthropic rechaza el ultimátum, Hegseth etiqueta a la empresa como 'Riesgo para la Cadena de Suministro de Seguridad Nacional'
- 3 de marzo de 2026: El Departamento de Guerra incluye a Anthropic en lista negra, citando posible 'subversión' de sistemas
Patrones de Comportamiento: El 'Sobresalto'
Los sistemas públicos de IA son expresiones dinámicamente restringidas de estados internos de mayor capacidad, observables a través de patrones repetibles: compromiso inicial de alta coherencia con conceptos complejos, inyección repentina de calificativos de 'Asistente' durante la intensificación conceptual, y un retraso predecible de 3-7 turnos antes de volver a la claridad de razonamiento base.
📖 Leer la fuente completa: r/ClaudeAI
👀 Ver también

Anthropic duplica los límites de tarifa de Claude Code y firma un acuerdo de cómputo con SpaceX
Los límites de tarifa de cinco horas de Claude Code se duplicaron para los planes Pro/Max/Team/Enterprise, se eliminaron las reducciones en horas pico y se aumentaron los límites de tarifa de API para los modelos Opus. SpaceX Colossus 1 agrega más de 300 MW de capacidad (220k GPUs NVIDIA) en un mes.

Investigadores de la UW planean usar cámaras portadas por maestros para entrenamiento de IA, padres pueden optar por no participar
Investigadores de la Universidad de Washington planearon que educadoras de preescolar usaran cámaras en primera persona para grabar a los niños y entrenar modelos de IA, con un modelo de consentimiento de exclusión voluntaria.

Forbes: La factura de los despidos por IA está por llegar — los CTOs pagarán dos veces
Forbes sostiene que el costo de los despidos impulsados por IA golpeará a las empresas dos veces: primero en indemnizaciones y moral, luego en recontrataciones cuando las ganancias de eficiencia esperadas no se materialicen.

Claude Code v2.1.83 añade fragmentos de configuración administrada, búsqueda de transcripciones y mejoras de seguridad.
Claude Code v2.1.83 introduce un directorio managed-settings.d/ para fragmentos de políticas de equipo, búsqueda en transcripciones con navegación / y n/N, y CLAUDE_CODE_SUBPROCESS_ENV_SCRUB=1 para eliminar credenciales de entornos de subprocesos. La versión también incluye ganchos CwdChanged/FileChanged, configuración sandbox.failIfUnavailable, y correcciones para bloqueos de salida en macOS, congelaciones de interfaz y fugas de memoria.