添加开发终端节点 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

添加开发终端节点

可使用开发终端节点以迭代方式开发和测试您的提取、转换和加载 (ETL) Amazon Glue 中的脚本。可以使用 Amazon Glue 控制台或 Amazon Command Line Interface (Amazon CLI) 添加开发终端节点。

添加开发终端节点(控制台)

  1. 打开 Amazon Glue 控制台,地址:https://console.aws.amazon.com/glue/。以拥有 IAM 权限 glue:CreateDevEndpoint 的用户身份登录。

  2. 在导航窗格中,选择 Dev endpoints (开发终端节点),然后选择 Add endpoint (添加终端节点)

  3. 按照 Amazon Glue Add endpoint (添加终端节点) 向导中的步骤执行操作,以提供创建终端节点所需的属性。指定一个允许访问您的数据的 IAM 角色。

    如果您在创建开发终端节点时选择提供 SSH 公有密钥,请保存 SSH 私有密钥,以便日后访问开发终端节点。

  4. 选择 Finish (完成) 以完成向导。然后,检查控制台以了解开发终端节点状态。如果状态变为 READY,则开发终端节点已可供使用。

    在创建终端节点时,可提供以下可选信息:

    安全配置

    要指定静态加密选项,请向开发终端节点添加安全配置。

    工作线程类型

    分配给开发终端节点的预定义工作线程的类型。接受值 StandardG.1XG.2X

    • 对于 Standard 工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 50 GB 磁盘,并且每个工作线程有 2 个执行器。

    • 对于 G.1X 工作线程类型,每个工作线程映射到 1 个 DPU(4 个 vCPU,16 GB 内存,64 GB 磁盘),并且每个工作线程有 1 个执行器。我们建议内存密集型作业使用该工作线程类型。

    • 对于 G.2X 工作线程类型,每个工作线程映射到 2 个 DPU(8 个 vCPU,32 GB 内存,128 GB 磁盘),并且每个工作线程有 1 个执行器。我们建议内存密集型作业使用该工作线程类型。

    工作线程数

    分配给开发终端节点的已定义 workerType 的工作线程数。此字段仅在您选择工作线程类型 G.1X 或 G.2X 时可用。

    数据处理单元 (DPU)

    Amazon Glue 用于开发终端节点的 DPU 的数量。该数字必须大于 1。

    Python 库路径

    以逗号分隔的到脚本所需的 Python 库的 Amazon Simple Storage Service(Amazon S3)路径。多个值必须是以逗号(,)分隔的完整路径。仅支持单个文件而不是目录路径。

    注意

    您只能使用纯 Python 库。尚不支持依赖于 C 扩展的库,如 Pandas Python 数据分析库。

    从属 jars 路径

    脚本所需的以逗号分隔的到 JAR 文件的 Amazon S3 路径。

    注意

    目前,您只能使用纯 Java 或 Scala (2.11) 库。

    Amazon Glue 版本

    指定要使用的 Python 和 Apache Spark 的版本。默认为 Amazon Glue 版本 1.0 (Python 版本 3 和 Spark 版本 2.4)。有关更多信息,请参见 Glue version job property

    标签

    使用 Tag key (标签键) 和可选的 Tag value (标签值) 来标记开发终端节点。创建标签键后,它们是只读的。对某些资源使用标签可帮助您整理和标识资源。有关更多信息,请参阅 Amazon 中的标签Amazon Glue

    Spark UI

    允许使用 Spark UI 以监控此开发终端节点上运行的 Spark 应用程序。有关更多信息,请参阅 为开发终端节点启用 Apache Spark Web UI

    使用 Amazon Glue Data Catalog 作为 Hive 元存储(在目录选项下)

    让您能够使用 Amazon Glue Data Catalog 作为 Spark Hive 元存储。

添加开发终端节点 (Amazon CLI)

  1. 在命令行窗口中,输入与以下内容类似的命令。

    aws glue create-dev-endpoint --endpoint-name "endpoint1" --role-arn "arn:aws:iam::account-id:role/role-name" --number-of-nodes "3" --glue-version "1.0" --arguments '{"GLUE_PYTHON_VERSION": "3"}' --region "region-name"

    此命令指定 Amazon Glue 版本 1.0。此版本同时支持 Python 2 和 Python 3,因此,您可以使用 arguments 参数来指明所需的 Python 版本。如果省略 glue-version 参数,则假定为 Amazon Glue 版本 0.9。有关 Amazon Glue 版本的更多信息,请参阅 Glue version job property

    有关其他命令行参数的信息,请参阅《Amazon CLI 命令参考》中的创建开发端点

  2. (可选)输入以下命令可检查开发终端节点状态。如果状态变为 READY,则开发终端节点已可供使用。

    aws glue get-dev-endpoint --endpoint-name "endpoint1"