针对 进行设置AmazonGlue 工作室 - AmazonGlue 工作室
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

针对 进行设置AmazonGlue 工作室

完成本节中的任务时,使用Amazon首次 Glue 工作室:

注册Amazon

如果您没有 Amazon Web Services 账户 ,请完成以下步骤创建一个。

注册 Amazon Web Services 账户

  1. 打开 https://portal.aws.amazon.com/billing/signup

  2. 按照屏幕上的说明进行操作。

    在注册时,您将接到一通电话,要求您使用电话键盘输入一个验证码。

创建 IAM 管理员用户

如果您的账户已包含具有完整Amazon管理权限,则可以跳过此部分。

自行创建管理员用户并将该用户添加到管理员组(控制台)

  1. 登录到IAM 控制台作为帐户所有者,方法是选择根用户并输入 Amazon Web Services 账户 电子邮件地址。在下一页上,输入您的密码。

    注意

    强烈建议您遵守以下使用 Administrator IAM 用户的最佳实践,妥善保存根用户凭证。只在执行少数账户和服务管理任务时才作为根用户登录。

  2. 在导航窗格中,选择用户,然后选择添加用户

  3. 对于 User name (用户名),输入 Administrator

  4. 选中 Amazon Web Services Management Console access (Amazon Web Services Management Console 访问) 旁边的复选框。然后选择自定义密码,并在文本框中输入新密码。

  5. (可选)默认情况下,Amazon 要求新用户在首次登录时创建新密码。您可以清除 User must create a new password at next sign-in (用户必须在下次登录时创建新密码) 旁边的复选框以允许新用户在登录后重置其密码。

  6. 选择 Next:。Permissions (下一步:权限)

  7. 设置权限下,选择将用户添加到组

  8. 选择创建组

  9. Create group (创建组) 对话框中,对于 Group name (组名称),输入 Administrators

  10. 选择 Filter policies (筛选策略),然后选择 Amazon managed-job function (亚马逊云科技托管的工作职能) 以筛选表内容。

  11. 在策略列表中,选中 AdministratorAccess 的复选框。然后选择 Create group (创建组)

    注意

    您必须先激活 IAM 用户和角色对账单的访问权限,然后才能使用 AdministratorAccess 权限访问 Amazon Billing and Cost Management控制台。为此,请按照“向账单控制台委派访问权限”教程第 1 步中的说明进行操作。

  12. 返回到组列表中,选中您的新组所对应的复选框。如有必要,选择 Refresh 以在列表中查看该组。

  13. 选择 Next:。标签

  14. (可选)通过以键值对的形式附加标签来向用户添加元数据。有关在 IAM 中使用标签的更多信息,请参阅《IAM 用户指南》中的标记 IAM 实体

  15. 选择 Next:。审核以查看要添加到新用户的组成员资格的列表。如果您已准备好继续,请选择 Create user

您可以使用此相同的流程创建更多的组和用户,并允许您的用户访问 Amazon Web Services 账户 资源的费用。要了解有关使用策略限制用户对特定Amazon资源的权限的信息,请参阅访问管理示例策略

作为 IAM 用户登录

登录到IAM 控制台通过选择IAM 用户并输入 Amazon Web Services 账户 ID 或账户别名。在下一页上,输入您的 IAM 用户名和密码。

注意

为方便起见,Amazon登录页面使用浏览器 Cookie 记住您的 IAM 用户名和账户信息。如果您以前以其他用户身份登录,请选择按钮下方的登录链接以返回主登录页面。从那里,您可以输入您的 Amazon Web Services 账户 要重定向到您账户的 IAM 用户登录页面的 ID 或账户别名。

所需的 IAM 权限AmazonGlue 工作室用户

使用AmazonGlue 工作室,用户必须有权访问各种Amazon资源的费用。用户必须能够查看和选择 Amazon S3 存储桶、IAM 策略和角色以及Amazon Glue Data Catalog对象。

Amazon Glue服务权限

AmazonGlue 工作室使用的行动和资源Amazon Glue服务。您的用户需要对这些操作和资源的权限才能有效地使用AmazonGlue 工作室。您可以授予AmazonGlue 工作室用户AWSGlueConsoleFullAccess托管策略,或创建具有较小权限集的自定义策略。

重要

根据安全性最佳实践,建议通过收紧策略来限制访问,以进一步限制对 Amazon S3 存储桶和Amazon CloudWatch日志组。有关示例 Amazon S3 策略,请参阅编写 IAM 策略:如何授予对 Amazon S3 存储桶的访问权限

Amazon CloudWatch 权限

您可以监控AmazonGlue 工作室作业使用Amazon CloudWatch,此工具可从收集和处理原始数据Amazon Glue转换为易读的近乎实时的指标。默认情况下,Amazon Glue指标数据自动发送到 CloudWatch。有关更多信息,请参阅 。什么是 Amazon CloudWatch?中的Amazon CloudWatch 用户指南, 和Amazon Glue指标中的Amazon Glue开发人员指南

要访问 CloudWatch 控制面板,请访问AmazonGlue 工作室需要以下项目之一:

  • 这些区域有:AdministratorAccess策略

  • 这些区域有:CloudWatchFullAccess策略

  • 包含以下一个或多个特定权限的自定义策略:

    • cloudwatch:GetDashboardcloudwatch:ListDashboards查看控制面板

    • cloudwatch:PutDashboard创建或修改控制面板

    • cloudwatch:DeleteDashboards删除控制面板

有关使用策略更改 IAM 用户权限的更多信息,请参阅。更改 IAM 用户的权限中的IAM 用户指南

与作业相关的权限

使用创建作业AmazonGlue Studio 中,作业代入您在创建它时指定的 IAM 角色的权限。此 IAM 角色必须有权从您的数据源中提取数据、将数据写入您的目标以及访问Amazon Glue资源的费用。

为作业创建的角色的名称必须以字符串AWSGlueServiceRole以便它可以正确使用AmazonGlue 工作室。例如,您可能将角色命名为AWSGlueServiceRole-FlightDataJob

数据源和数据目标权限

网络 ACL 和安全组都允许 (因此可到达您的实例) 的发起 ping 的AmazonGlue Studio 作业必须有权访问 Amazon S3,以查看您在作业中使用的任何源、目标、脚本和临时目录。您可以创建策略,以提供对特定 Amazon S3 资源的精细访问。

  • 数据源需要 s3:ListBuckets3:GetObject 权限。

  • 数据目标需要s3:ListBuckets3:PutObjects3:DeleteObject 权限。

如果选择Amazon Redshift作为数据源,则可以为群集权限提供角色。针对Amazon Redshift群集发出使用临时证书访问 Amazon S3 以进行临时存储的命令。如果您的作业运行超过一小时,这些凭据将过期,导致作业失败。若要避免此问题,您可以将角色分配给Amazon Redshift群集本身,它向使用临时证书的作业授予所需权限。有关更多信息,请参阅 。将数据移动到 Amazon Redshift 以及从中移动数据中的Amazon Glue开发人员指南

如果作业使用 Amazon S3 以外的数据源或目标,则必须将必要的权限附加到作业使用的 IAM 角色,以访问这些数据源和目标。有关更多信息,请参阅 。设置环境以访问数据存储中的Amazon Glue开发人员指南

如果要为数据存储使用连接器和连接,则需要额外的权限,如使用连接器时的其他权限

删除作业所需的权限

InAmazonGlue 工作室,你可以选择多个作业在控制台删除. 若要执行此操作,您必须具有glue:BatchDeleteJob权限。它不同于Amazon Glue控制台,该控制台需要glue:DeleteJob删除作业的权限。

Amazon Key Management Service 权限

如果您计划访问使用服务器端加密的 Amazon S3 源和目标Amazon Key Management Service(Amazon KMS),然后将策略附加到Amazon作业使用的 Glue Studio 角色,该角色使作业能够解密数据。作业角色需要kms:ReEncryptkms:GenerateDataKey, 和kms:DescribeKey权限。此外,作业角色需要kms:Decrypt权限上传或下载通过Amazon KMS客户主密钥 (CMK)。

使用 Amazon KMS CMK 需支付额外费用。有关更多信息,请参阅 。Amazon Key Management Service概念-客户主密钥 (CMK)Amazon Key Management Service定价中的Amazon Key Management Service开发人员指南

使用连接器时的其他权限

如果您使用的是Amazon Glue用于访问数据存储的自定义连接器和连接、用于运行Amazon GlueETL 作业需要附加其他权限:

  • AWS 托管策略AmazonEC2ContainerRegistryReadOnly用于访问从 Amazon Web Services Marketplace 。

  • 这些区域有:glue:GetJobglue:GetJobs权限。

  • Amazon Secrets Manager访问与连接一起使用的密钥的权限。请参阅。中的 IAM 策略示例Amazon Secrets Manager例如 IAM 策略。

如果您的Amazon GlueETL 作业在运行 Amazon VPC 的 VPC 中运行,则必须按照为您的 ETL 任务配置 VPC

设置 IAM 权限AmazonGlue 工作室

您可以创建角色并将策略分配给用户和作业角色,方法是使用Amazon管理员用户。

创建 IAM 策略和角色以供使用AmazonGlue 工作室

  1. 为创建 IAM 策略Amazon Glue服务。

    您可以使用AWSG 独立访问 Amazon托管策略。

    要创建您自己的策略,请按照为创建 IAM 策略Amazon Glue服务中的Amazon Glue开发人员指南

  2. 为 创建 IAM 角色Amazon Glue并向此角色附加此 IAM 策略。

    请按照为 创建 IAM 角色Amazon Glue中的Amazon Glue开发人员指南

  3. 为创建用户Amazon Glue或者AmazonGlue 工作室。

    您可以使用管理员用户配置Amazon Glue资源,也可以创建一个单独的用户来访问AmazonGlue 工作室。

    为创建额外用户Amazon Glue和AmazonGlue 工作室,请按照创建您的第一个 IAM 委派用户和组中的IAM 用户指南

为您的 ETL 任务配置 VPC

您可以使用 Amazon Virtual Private Cloud (Amazon VPC) 在您自己的逻辑隔离区域中定义虚拟网络。Amazon云,称作Virtual Private Cloud (VPC)。您可以启动Amazon资源(如实例)添加到您的 VPC 中。您的 VPC 与您在自己的数据中心中运行的传统网络可能极为相似,同时享有使用Amazon。您可以配置您的 VPC;您可以选择它的 IP 地址范围、创建子网并配置路由表、网关和安全设置。您可以将您的 VPC 中的实例连接到 Internet。您可以将您的 VPC 连接到自己的企业数据中心,从而使Amazon云是您的数据中心的扩展。要保护各个子网中的资源,您可以利用多种安全层,包括安全组和网络访问控制列表。有关更多信息,请参阅 Amazon VPC 用户指南

您可以将Amazon Glue使用连接器时,要在 VPC 内运行的 ETL 作业。您必须根据需要为以下内容配置 VPC:

  • 对于不在的数据存储的公共网络访问权限Amazon。必须能够从 VPC 子网使用作业访问的所有数据存储。

  • 如果您的作业既要访问 VPC 资源又要访问公共 Internet,那么 VPC 内部必须具有网络地址转换 (NAT) 网关。

    有关更多信息,请参阅 。设置环境以访问数据存储中的Amazon Glue开发人员指南

填充Amazon Glue数据目录

AmazonGlue 工作室使用Amazon Glue Data Catalog。这些数据集用作 ETL 工作流的源和目标AmazonGlue 工作室。如果为数据源或目标选择 “数据目录”,则在创建作业之前必须存在与数据源或数据目标相关的 “数据目录” 表。

当从数据源读取或写入数据源时,ETL 作业需要知道数据的模式。ETL 作业可以从Amazon Glue Data Catalog。您可以使用爬网程序,Amazon Glue控制台,Amazon CLI,或Amazon CloudFormation模板文件将数据库和表添加到数据目录中。有关填充数据目录的更多信息,请参阅。数据目录中的Amazon Glue开发人员指南

使用连接器时,您可以使用架构生成器输入架构信息,当您在AmazonGlue 工作室。有关更多信息,请参阅 使用自定义连接器创作作业

如果您选择 Amazon S3 位置作为数据源,AmazonGlue Studio 可以自动推断它从指定位置的文件中读取的数据的模式。有关更多信息,请参阅 将 Amazon S3 中的文件用于数据源

如果选择流数据源,AmazonGlue Studio 可以自动推断它从数据流中读取的数据的模式。有关更多信息,请参阅 使用流数据源