添加开发终端节点 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

添加开发终端节点

可使用开发终端节点以迭代方式开发和测试您的提取、转换和加载 (ETL) AWS Glue 中的脚本。可以使用 AWS Glue 控制台或 AWS Command Line Interface (AWS CLI) 添加开发终端节点。

添加开发终端节点(控制台)

  1. 打开位于 https://console.amazonaws.cn/glue/ 处的 AWS Glue 控制台。以拥有 IAM 权限 glue:CreateDevEndpoint 的用户身份登录。

  2. 在导航窗格中,选择 Dev endpoints (开发终端节点),然后选择 Add endpoint (添加终端节点)

  3. 按照 AWS Glue Add endpoint (添加终端节点) 向导中的步骤执行操作,以提供创建终端节点所需的属性。指定一个允许访问您的数据的 IAM 角色。

    如果您在创建开发终端节点时选择提供 SSH 公有密钥,请保存 SSH 私有密钥,以便日后访问开发终端节点。

  4. 选择 Finish (完成) 以完成向导。然后,检查控制台以了解开发终端节点状态。如果状态变为 READY,则开发终端节点已可供使用。

    在创建终端节点时,可提供以下可选信息:

    安全配置

    要指定静态加密选项,请向开发终端节点添加安全配置。

    工作线程类型

    分配给开发终端节点的预定义工作线程的类型。接受值 StandardG.1XG.2X

    • 对于 Standard 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 50 GB 磁盘,并且每个工作线程有 2 个执行器。

    • 对于 G.1X 工作线程类型,每个工作线程映射到 1 个 DPU(4 个 vCPU,16 GB 内存,64 GB 磁盘),并且每个工作线程有 1 个执行器。我们建议内存密集型作业使用该工作线程类型。

    • 对于 G.2X 工作线程类型,每个工作线程映射到 2 个 DPU(8 个 vCPU,32 GB 内存,128 GB 磁盘),并且每个工作线程有 1 个执行器。我们建议内存密集型作业使用该工作线程类型。

    已知问题:当使用 G.2X WorkerType 配置创建开发终端节点时,开发终端节点的 Spark 驱动程序将在 4 个 vCPU、16 GB 内存和 64 GB 磁盘上运行。

    工作线程数

    分配给开发终端节点的已定义 workerType 的工作线程数。此字段仅在您选择工作线程类型 G.1X 或 G.2X 时可用。

    可定义的工作线程的最大数目是 299(对于 G.1X 而言)和 149(对于 G.2X 而言)。

    数据处理单元 (DPU)

    AWS Glue 用于开发终端节点的 DPU 的数量。该数字必须大于 1。

    Python 库路径

    以逗号分隔的到脚本所需的 Python 库的 Amazon Simple Storage Service (Amazon S3) 路径。多个值必须是以逗号 (,) 分隔的完整路径。仅支持单个文件而不是目录路径。

    注意

    您只能使用纯 Python 库。尚不支持依赖于 C 扩展的库,如 Pandas Python 数据分析库。

    从属 jars 路径

    脚本所需的以逗号分隔的到 JAR 文件的 Amazon S3 路径。

    注意

    目前,您只能使用纯 Java 或 Scala (2.11) 库。

    Glue 版本

    指定要使用的 Python 和 Apache Spark 的版本。默认为 AWS Glue 版本 1.0 (Python 版本 3 和 Spark 版本 2.4)。有关更多信息,请参阅 Glue version job property

    标签

    使用 Tag key (标签键) 和可选的 Tag value (标签值) 来标记开发终端节点。创建标签键后,它们是只读的。对某些资源使用标签可帮助您整理和标识资源。有关更多信息,请参阅AWS Glue 中的 AWS 标签

    Spark UI

    允许使用 Spark UI 以监控此开发终端节点上运行的 Spark 应用程序。有关更多信息,请参阅 为开发终端节点启用 Apache Spark Web UI

    使用 Glue 数据目录作为 Hive 元存储(在目录选项下)

    使您能够使用 AWS Glue 数据目录 作为 Spark Hive 元存储。

添加开发终端节点 (AWS CLI)

  1. 在命令行窗口中,输入与以下内容类似的命令。

    aws glue create-dev-endpoint --endpoint-name "endpoint1" --role-arn "arn:aws:iam::account-id:role/role-name" --number-of-nodes "3" --glue-version "1.0" --arguments '{"GLUE_PYTHON_VERSION": "3"}' --region "region-name"

    此命令指定 AWS Glue 版本 1.0。此版本同时支持 Python 2 和 Python 3,因此,您可以使用 arguments 参数来指明所需的 Python 版本。如果省略 glue-version 参数,则假定为 AWS Glue 版本 0.9。有关 AWS Glue 版本的更多信息,请参阅 Glue version job property

    有关其他命令行参数的信息,请参阅 AWS CLI Command Reference 中的 create-dev-endpoint

  2. (可选)输入以下命令可检查开发终端节点状态。如果状态变为 READY,则开发终端节点已可供使用。

    aws glue get-dev-endpoint --endpoint-name "endpoint1"