AWS Glue 的已知问题 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS Glue 的已知问题

请注意 AWS Glue 的以下已知问题。

防止跨作业数据访问

考虑在单个 Amazon Web Service 账户中有两个 AWS Glue Spark 作业的情况,每个作业都在一个单独的 AWS Glue Spark 集群中运行。这些作业使用 AWS Glue 连接来访问同一虚拟私有云 (VPC) 中的资源。在这种情况下,在一个集群中运行的作业可能能够访问在另一个集群中运行的作业的数据。

下图说明了这种情况的一个示例。


    AWS Glue 作业Job-1在Cluster-1和Job-2在Cluster-2正在与Subnet-1在 VPC 中。数据从 Amazon S3 传输Bucket-1和Bucket-2到 Amazon Redshift。

在图中,AWS GlueJob-1在中运行Cluster-1,Job-2 在Cluster-2。这两个作业都使用 Amazon Redshift 的同一个实例,该实例位于Subnet-1VPC 的。Subnet-1可以是公有子网或私有子网。

Job-1从 Amazon Simple Storage Service (Amazon S3) 转换数据Bucket-1并将数据写入 Amazon Redshift。Job-2正在对Bucket-2Job-1使用 AWS Identity and Access Management (IAM) 角色Role-1(未显示),它允许访问Bucket-1Job-2使用Role-2(未显示),它允许访问Bucket-2

这两个作业均具有使其能够与对方的集群进行通信的网络路径,从而能够访问对方的数据。例如,Job-2 可以访问 Bucket-1 中的数据。在图中,这显示为红色的路径。

为防止这种情况,我们建议您将不同的安全配置附加到 Job-1Job-2。通过附加安全配置,可以凭借 AWS Glue 创建的证书阻止对数据的跨作业访问。安全配置可以是虚拟配置。也就是说,您可以创建安全配置,而无需启用 Amazon S3 数据、Amazon CloudWatch 数据或作业书签的加密。所有三个加密选项都可以被禁用。

有关安全配置的信息,请参阅加密爬网程序、作业和开发终端节点写入的数据

将安全配置附加到作业

  1. 在以下位置打开 AWS Glue 控制台:https://console.aws.amazon.com/glue/

  2. 在作业的 Configure the job properties (配置作业属性) 页面上,展开 Security configuration, script libraries, and job parameters (安全配置、脚本库和作业参数) 部分。

  3. 在列表中选择一个安全配置。