对 AWS Glue Studio 进行设置 - AWS Glue Studio
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

对 AWS Glue Studio 进行设置

首次使用 AWS Glue Studio 时,请完成本节中的任务:

注册 AWS

如果您没有 AWS 账户,请通过以下步骤创建一个账户。

注册 AWS

  1. 打开 http://www.amazonaws.cn/,然后选择 Create an AWS Account

  2. 按照屏幕上的说明进行操作。

创建 IAM 管理员用户

如果您的账户已包含具有完全 AWS 管理权限的 IAM 用户,则可以跳过此部分。

自行创建管理员用户并将该用户添加到管理员组(控制台)

  1. 通过选择 根用户,然后输入您的 AWS 账户的电子邮件地址,以账户拥有者身份登录到 IAM 控制台。在下一页上,输入您的密码。

    注意

    强烈建议您遵守以下使用 Administrator IAM 用户的最佳实践,妥善保存根用户凭证。只在执行少数账户和服务管理任务时才作为根用户登录。

  2. 在导航窗格中,选择用户,然后选择添加用户

  3. 对于 User name (用户名),输入 Administrator

  4. 选中 AWS 管理控制台 访问 旁边的复选框。然后选择自定义密码,并在文本框中输入新密码。

  5. (可选)默认情况下,AWS 要求新用户在首次登录时创建新密码。您可以清除 User must create a new password at next sign-in (用户必须在下次登录时创建新密码) 旁边的复选框以允许新用户在登录后重置其密码。

  6. 选择下一步: 权限

  7. 设置权限下,选择将用户添加到组

  8. 选择创建组

  9. Create group (创建组) 对话框中,对于 Group name (组名称),输入 Administrators

  10. 选择 Filter policies (筛选策略),然后选择 AWS managed-job function (AWS 托管的工作职能) 以筛选表内容。

  11. 在策略列表中,选中 AdministratorAccess 的复选框。然后选择 Create group (创建组)

    注意

    您必须先激活 IAM 用户和角色对账单的访问权限,然后才能使用 AdministratorAccess 权限访问 AWS Billing and Cost Management 控制台。为此,请按照“向账单控制台委派访问权限”教程第 1 步中的说明进行操作。

  12. 返回到组列表中,选中您的新组所对应的复选框。如有必要,选择 Refresh 以在列表中查看该组。

  13. 选择下一步: 标签

  14. (可选)通过以键值对的形式附加标签来向用户添加元数据。有关在 IAM 中使用标签的更多信息,请参阅 IAM 用户指南 中的标记 IAM 实体

  15. 选择 Next: Review (下一步: 审核) 以查看要添加到新用户的组成员资格的列表。如果您已准备好继续,请选择 Create user

您可使用此相同的流程创建更多的组和用户,并允许您的用户访问 AWS 账户资源。要了解有关使用策略限制用户对特定 AWS 资源的权限的信息,请参阅访问管理示例策略

作为 IAM 用户登录

通过选择 IAM 用户,然后输入您的 AWS 账户 ID 或账户别名,登录 IAM 控制台。在下一页上,输入您的 IAM 用户名和密码。

注意

为方便起见,AWS 登录页面将使用浏览器 Cookie 来记住您的 IAM 用户名和账户信息。如果您以前以其他用户身份登录,请选择按钮下方的登录链接以返回主登录页面。在这里,您可以输入您的 AWS 账户 ID 或账户别名,以重定向到您账户的 IAM 用户登录页面。

IAM 用户所需的 AWS Glue Studio 权限

要使用 AWS Glue Studio,用户必须有权访问各种 AWS 资源。用户必须能够查看和选择 Amazon S3 存储桶、IAM 策略和角色以及 AWS Glue 数据目录 对象。

AWS Glue 服务权限

AWS Glue Studio 使用 AWS Glue 服务的操作和资源。您的用户需要这些操作和资源的权限才能有效使用 AWS Glue Studio。您可以向 AWS Glue Studio 用户授予 AWSGlueConsoleFullAccess 托管策略,或创建具有较小权限集的自定义策略。

Amazon CloudWatch权限

您可以使用 AWS Glue Studio 监控您的 Amazon CloudWatch 作业,此工具可从 AWS Glue 收集原始数据,并将数据处理为便于读取的近乎实时的指标。默认情况下,AWS Glue 指标数据将自动发送到 CloudWatch。有关更多信息,请参阅 Amazon CloudWatch 用户指南 中的什么是 Amazon CloudWatch?以及 https://docs.amazonaws.cn/glue/latest/dg/monitoring-awsglue-with-cloudwatch-metrics.html#awsglue-metrics 中的 AWS Glue 指标AWS Glue 开发人员指南。

要访问 CloudWatch 控制面板,访问 AWS Glue Studio 的用户需要以下之一:

  • 策略AdministratorAccess

  • 策略CloudWatchFullAccess

  • 包含以下一个或多个特定权限的自定义策略:

    • cloudwatch:GetDashboardcloudwatch:ListDashboards,用于查看控制面板

    • cloudwatch:PutDashboard,用于创建或修改控制面板

    • cloudwatch:DeleteDashboards(用于删除控制面板)

有关使用策略更改 IAM 用户的权限的更多信息,请参阅 中的更改 IAM 用户的权限。IAM 用户指南

作业相关的权限

在使用 AWS Glue Studio 创建作业时,作业将代入您在创建作业时指定的 IAM 角色的权限。此 IAM 角色必须有权从数据源提取数据,将数据写入目标以及访问 AWS Glue 资源。

您为作业创建的角色名称必须以字符串 AWSGlueServiceRole 开头,以便 AWS Glue Studio 正确使用该角色。例如,您可以将您的角色命名为 AWSGlueServiceRole-FlightDataJob

数据源和数据目标权限

对于您在作业中使用的任何源、目标、脚本和临时目录,AWS Glue Studio 作业必须有权访问 Amazon S3。您可以创建策略来提供对特定 Amazon S3 资源的精细访问。

  • 数据源需要 s3:ListBuckets3:GetObject 权限。

  • 数据目标需要s3:ListBuckets3:PutObjects3:DeleteObject 权限。

如果作业使用 Amazon S3 以外的数据源或目标,则必须将必要的权限附加到作业用于访问这些数据源和目标的 IAM 角色。有关更多信息,请参阅 https://docs.amazonaws.cn/glue/latest/dg/start-connecting.html 中的设置环境以访问数据存储AWS Glue 开发人员指南。

AWS Key Management Service权限

如果您计划访问将服务器端加密与 Amazon S3 (AWS Key Management Service) 结合使用的 AWS KMS 源和目标,则将策略附加到作业使用的 AWS Glue Studio 角色,该角色使作业能够解密数据。作业角色需要 kms:ReEncryptkms:GenerateDataKeykms:DescribeKey 权限。此外,任务角色需要 kms:Decrypt 权限才能上传或下载使用 Amazon S3 客户主密钥 (CMK) 加密的 AWS KMS 对象。

使用 AWS KMS CMKs 需要支付额外费用。 有关更多信息,请参阅 中的 AWS Key Management Service 概念 - 客户主密钥 (CMK)AWS Key Management Service 定价。AWS Key Management Service Developer Guide

为 IAM 设置 AWS Glue Studio 权限

您可以使用 AWS 管理员用户创建角色并将策略分配给用户和作业角色。

  1. 为 IAM 服务创建 AWS Glue 策略。

    您可以使用 AWSGlueConsoleFullAccess AWS 托管策略。

    要创建您自己的策略,请按照 https://docs.amazonaws.cn/glue/latest/dg/create-service-policy.html 中的为 AWS Glue 服务创建 IAM 策略AWS Glue 开发人员指南中记录的步骤操作。

  2. 为 IAM 创建 AWS Glue 角色并将 IAM 策略附加到此角色。

    按照 https://docs.amazonaws.cn/glue/latest/dg/create-an-iam-role.html 中的为 AWS Glue 创建 IAM 角色AWS Glue 开发人员指南中记录的步骤操作。

  3. 为 AWS Glue 或 AWS Glue Studio 创建用户。

    您可以使用管理员用户配置 AWS Glue 资源,也可以创建单独的用户来访问 AWS Glue Studio。

    要为 AWS Glue 和 AWS Glue Studio 创建其他用户,请按照 https://docs.amazonaws.cn/IAM/latest/UserGuide/getting-started_create-delegated-user.html创建您的第一个 IAM 委托用户和组IAM 用户指南中的步骤操作。

填充 AWS Glue Data Catalog

AWS Glue Studio 使用 AWS Glue 数据目录 中定义的数据集。这些数据集用作 AWS Glue Studio 中 ETL 工作流程的源和目标。

在 AWS Glue Studio 中创建作业之前,数据库和表必须已存在于 AWS Glue 数据目录 中。您可以使用 AWS Glue 或 AWS CloudFormation 模板文件将数据库和表添加到 AWS Glue 数据目录。

有关填充 Data Catalog 的更多信息,请参阅 中的 AWS Glue 数据目录。AWS Glue 开发人员指南