添加开发终端节点 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

添加开发终端节点

使用开发终端节点以迭代方式开发和测试 AWS Glue 中的提取、转换和加载 (ETL) 脚本。您可以使用 AWS Glue 控制台或 AWS Command Line Interface (AWS CLI) 添加开发终端节点。

添加开发终端节点(控制台)

  1. 通过以下网址打开 AWS Glue 控制台:https://console.aws.amazon.com/glue/。以拥有 IAM 权限的用户身份登录glue:CreateDevEndpoint

  2. 在导航窗格中,选择 Dev endpoints (开发终端节点),然后选择 Add endpoint (添加终端节点)

  3. 按照 AWS Glue 中的步骤操作添加终端节点向导以提供创建终端节点所需的属性。指定一个允许访问您的数据的 IAM 角色。

    如果您在创建开发终端节点时选择提供 SSH 公有密钥,请保存 SSH 私有密钥,以便日后访问开发终端节点。

  4. 选择 Finish (完成) 以完成向导。然后,检查控制台以了解开发终端节点状态。如果状态变为 READY,则开发终端节点已可供使用。

    在创建终端节点时,可提供以下可选信息:

    安全配置

    要指定静态加密选项,请向开发终端节点添加安全配置。

    工作线程类型

    分配给开发终端节点的预定义工作线程的类型。接受值 StandardG.1XG.2X

    • 对于 Standard 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 50 GB 磁盘,并且每个工作线程有 2 个执行器。

    • 对于 G.1X 工作线程类型,每个工作线程映射到 1 个 DPU(4 个 vCPU,16 GB 内存,64 GB 磁盘),并且每个工作线程有 1 个执行器。我们建议内存密集型作业使用该工作线程类型。

    • 对于 G.2X 工作线程类型,每个工作线程映射到 2 个 DPU(8 个 vCPU,32 GB 内存,128 GB 磁盘),并且每个工作线程有 1 个执行器。我们建议内存密集型作业使用该工作线程类型。

    工作线程数

    分配给开发终端节点的已定义 workerType 的工作线程数。此字段仅在您选择工作线程类型 G.1X 或 G.2X 时可用。

    可定义的工作线程的最大数目是 299(对于 G.1X 而言)和 149(对于 G.2X 而言)。

    数据处理单元 (DPU)

    AWS Glue 用于开发终端节点的 DPU 的数量。该数字必须大于 1。

    Python 库路径

    您的脚本所需的以逗号分隔的到 Python 库的 Amazon Simple Storage Service (Amazon S3) 路径。多个值必须是以逗号 (,) 分隔的完整路径。仅支持单个文件而不是目录路径。

    注意

    您只能使用纯 Python 库。尚不支持依赖于 C 扩展的库,如 Pandas Python 数据分析库。

    从属 jars 路径

    脚本所需的以逗号分隔的到 JAR 文件的 Amazon S3 路径。

    注意

    目前,您只能使用纯 Java 或 Scala (2.11) 库。

    AWS Glue 版本

    指定要使用的 Python 和 Apache Spark 的版本。默认为 AWS Glue 版本 1.0(Python 版本 3 和 Spark 版本 2.4)。有关更多信息,请参见 Glue version job property

    Tags

    使用 Tag key (标签键) 和可选的 Tag value (标签值) 来标记开发终端节点。创建标签键后,它们是只读的。对某些资源使用标签可帮助您整理和标识资源。有关更多信息,请参阅AWS Glue 中的 AWS 标签

    Spark UI

    启用 Spark UI 以监控此开发终端节点上运行的 Spark 应用程序。有关更多信息,请参阅为开发终端节点启用 Apache Spark Web UI

    使用 AWS Glue 数据目录作为 Hive 元存储(在目录选项下)

    允许您使用 AWS Glue 数据目录作为 Spark Hive 元存储。

添加开发终端节点 (AWS CLI)

  1. 在命令行窗口中,输入与以下内容类似的命令。

    aws glue create-dev-endpoint --endpoint-name "endpoint1" --role-arn "arn:aws:iam::account-id:role/role-name" --number-of-nodes "3" --glue-version "1.0" --arguments '{"GLUE_PYTHON_VERSION": "3"}' --region "region-name"

    此命令指定 AWS Glue 版本 1.0。此版本同时支持 Python 2 和 Python 3,因此,您可以使用 arguments 参数来指明所需的 Python 版本。如果glue-version参数,则假定为 AWS Glue 版本 0.9。有关 AWS Glue 版本的更多信息,请参阅Glue version job property

    有关其他命令行参数的信息,请参阅创建开发端点中的AWS CLI 命令参考

  2. (可选)输入以下命令可检查开发终端节点状态。如果状态变为 READY,则开发终端节点已可供使用。

    aws glue get-dev-endpoint --endpoint-name "endpoint1"