在 Athena for Spark 中配置跨账户 Amazon Glue 访问 - Amazon Athena
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

在 Athena for Spark 中配置跨账户 Amazon Glue 访问

本主题介绍如何将消费者账户 666666666666 和所有者账户 999999999999 配置为跨账户 Amazon Glue 访问。配置账户后,消费者账户可以从 Athena for Spark 对所有者的 Amazon Glue 数据库和表运行查询。

1. 在 Amazon Glue 中,提供对消费者角色的访问权限

在 Amazon Glue 中,所有者创建了一个策略,为消费者的角色提供对所有者 Amazon Glue 数据目录的访问权限。

添加允许消费者角色访问所有者数据目录的 Amazon Glue 策略
  1. 使用目录所有者的账户登录 Amazon Web Services Management Console。

  2. 通过 https://console.aws.amazon.com/glue/ 打开 Amazon Glue 控制台。

  3. 在导航窗格中,展开数据目录,然后选择目录设置

  4. 数据目录设置页面的权限部分,添加如下所示的策略。本策略为使用者账户 666666666666 提供了访问拥有者账户 999999999999 中数据目录的角色。

    { "Version": "2012-10-17", "Statement": [ { "Sid": "Cataloguers", "Effect": "Allow", "Principal": { "AWS": [ "arn:aws:iam::666666666666:role/Admin", "arn:aws:iam::666666666666:role/AWSAthenaSparkExecutionRole" ] }, "Action": "glue:*", "Resource": [ "arn:aws:glue:us-west-2:999999999999:catalog", "arn:aws:glue:us-west-2:999999999999:database/*", "arn:aws:glue:us-west-2:999999999999:table/*" ] } ] }

2. 配置消费者账户的访问权限

在消费者账户中,创建允许访问所有者 Amazon Glue Data Catalog、数据库和表的策略,并将该策略附加到角色。以下示例使用消费者账户 666666666666

创建访问所有者 Amazon Glue Data Catalog 的 Amazon Glue 策略
  1. 使用消费者账户登录 Amazon Web Services Management Console。

  2. 通过 https://console.aws.amazon.com/iam/ 打开 IAM 控制台。

  3. 在导航窗格中,展开访问管理,然后选择策略

  4. 选择创建策略

  5. 指定权限页面上,选择 JSON

  6. 策略编辑器中,输入如下所示的 JSON 语句,该语句允许对所有者账户的数据目录进行 Amazon Glue 操作。

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "glue:*", "Resource": [ "arn:aws:glue:us-east-1:999999999999:catalog", "arn:aws:glue:us-east-1:999999999999:database/*", "arn:aws:glue:us-east-1:999999999999:table/*" ] } ] }
  7. 选择下一步

  8. 审核并创建页面上,对于策略名称,输入策略的名称。

  9. 选择创建策略

接下来,您可以在消费者账户中使用 IAM 控制台将您刚刚创建的策略附加到消费者账户将用于访问所有者数据目录的 IAM 一个或多个角色。

将 Amazon Glue 策略附加到消费者账户中的角色
  1. 在消费者账户 IAM 控制台的导航窗格中,选择角色

  2. 角色页面上,找到您要将策略附加到的角色。

  3. 选择添加权限,然后选择附加策略

  4. 找到您刚刚创建的策略。

  5. 选择策略对应的复选框,然后选择添加权限

  6. 重复上述步骤,将策略添加到要使用的其他角色。

3. 配置会话并创建查询

在 Athena Spark 中,在请求者账户中,使用指定的角色创建会话,通过创建笔记本编辑当前会话来测试访问权限。配置会话属性时,请指定以下选项之一:

  • Glue 目录分隔符 - 使用这种方法,您可以在查询中包含所有者账户 ID。如果您要使用会话查询来自不同所有者的数据目录,请使用此方法。

  • Glue 目录 ID - 使用这种方法,您可以直接查询数据库。如果您要使用会话仅查询单个所有者的数据目录,则此方法会更方便。

使用 Amazon Glue 目录分隔符方法

编辑会话属性时,添加以下内容:

{ "spark.hadoop.aws.glue.catalog.separator": "/" }

在单元格中运行查询时,请使用与以下示例类似的语法。请注意,在 FROM 子句中,数据库名称前必须有目录 ID 和分隔符。

df = spark.sql('SELECT requestip, uri, method, status FROM `999999999999/mydatabase`.cloudfront_logs LIMIT 5') df.show()

使用 Amazon Glue 目录 ID 方法

编辑会话属性时,输入以下属性。将 999999999999 替换为所有者账户 ID。

{ "spark.hadoop.hive.metastore.glue.catalogid": "999999999999" }

在单元格中运行查询时,请使用与以下类似的语法。请注意,在 FROM 子句中,数据库名称前不能有目录 ID 和分隔符。

df = spark.sql('SELECT * FROM mydatabase.cloudfront_logs LIMIT 10') df.show()

其他 资源

授予 Amazon Glue 数据目录跨账户访问权限

Amazon Lake Formation 开发人员指南》中的同时使用 Amazon Glue 和 Lake Formation 管理跨账户权限

Amazon 规范性指导模式中的使用 Amazon Athena 配置对共享 Amazon Glue Data Catalog 的跨账户访问权限