添加开发终端节点
可使用开发终端节点以迭代方式开发和测试您的提取、转换和加载 (ETL) Amazon Glue 中的脚本。可以使用 Amazon Glue 控制台或 Amazon Command Line Interface (Amazon CLI) 添加开发终端节点。
添加开发终端节点(控制台)
-
打开 Amazon Glue 控制台,地址:https://console.aws.amazon.com/glue/
。以拥有 IAM 权限 glue:CreateDevEndpoint
的用户身份登录。 -
在导航窗格中,选择 Dev endpoints (开发终端节点),然后选择 Add endpoint (添加终端节点)。
-
按照 Amazon Glue Add endpoint (添加终端节点) 向导中的步骤执行操作,以提供创建终端节点所需的属性。指定一个允许访问您的数据的 IAM 角色。
如果您在创建开发终端节点时选择提供 SSH 公有密钥,请保存 SSH 私有密钥,以便日后访问开发终端节点。
-
选择 Finish (完成) 以完成向导。然后,检查控制台以了解开发终端节点状态。如果状态变为
READY
,则开发终端节点已可供使用。在创建终端节点时,可提供以下可选信息:
- 安全配置
-
要指定静态加密选项,请向开发终端节点添加安全配置。
- 工作线程类型
-
分配给开发端点的预定义工作线程的类型。接受值
Standard
、G.1X
或G.2X
。-
对于
Standard
工作线程类型,每个工作线程提供 4 个 vCPU、16 GB 内存和 50 GB 磁盘,并且每个工作线程有 2 个执行器。 -
对于
G.1X
工作线程类型,每个工作线程映射到 1 个 DPU(4 个 vCPU,16 GB 内存,64 GB 磁盘),并且每个工作线程有 1 个执行器。我们建议内存密集型作业使用该工作线程类型。 -
对于
G.2X
工作线程类型,每个工作线程映射到 2 个 DPU(8 个 vCPU,32 GB 内存,128 GB 磁盘),并且每个工作线程有 1 个执行器。我们建议内存密集型作业使用该工作线程类型。
-
- 工作线程数
-
分配给开发端点的已定义
workerType
的工作线程数。此字段仅在您选择工作线程类型 G.1X 或 G.2X 时可用。 - 数据处理单元 (DPU)
-
Amazon Glue 用于开发终端节点的 DPU 的数量。该数字必须大于 1。
- Python 库路径
-
以逗号分隔的到脚本所需的 Python 库的 Amazon Simple Storage Service(Amazon S3)路径。多个值必须是以逗号(
,
)分隔的完整路径。仅支持单个文件而不是目录路径。注意 您只能使用纯 Python 库。尚不支持依赖于 C 扩展的库,如 Pandas Python 数据分析库。
- 从属 jars 路径
-
脚本所需的以逗号分隔的到 JAR 文件的 Amazon S3 路径。
注意 目前,您只能使用纯 Java 或 Scala (2.11) 库。
- Amazon Glue 版本
-
指定要使用的 Python 和 Apache Spark 的版本。默认为 Amazon Glue 版本 1.0 (Python 版本 3 和 Spark 版本 2.4)。有关更多信息,请参见 Glue version job property。
- 标签
-
使用 Tag key (标签键) 和可选的 Tag value (标签值) 来标记开发终端节点。创建标签键后,它们是只读的。对某些资源使用标签可帮助您整理和标识资源。有关更多信息,请参阅Amazon Glue 中的 Amazon 标签。
- Spark UI
-
允许使用 Spark UI 以监控此开发终端节点上运行的 Spark 应用程序。有关更多信息,请参阅为开发终端节点启用 Apache Spark Web UI。
- 使用 Amazon Glue Data Catalog 作为 Hive 元存储(在目录选项下)
-
让您能够使用 Amazon Glue Data Catalog 作为 Spark Hive 元存储。
添加开发终端节点 (Amazon CLI)
-
在命令行窗口中,输入与以下内容类似的命令。
aws glue create-dev-endpoint --endpoint-name "endpoint1" --role-arn "arn:aws:iam::
account-id
:role/role-name
" --number-of-nodes "3" --glue-version "1.0" --arguments '{"GLUE_PYTHON_VERSION": "3"}' --region "region-name
"此命令指定 Amazon Glue 版本 1.0。此版本同时支持 Python 2 和 Python 3,因此,您可以使用
arguments
参数来指明所需的 Python 版本。如果省略glue-version
参数,则假定为 Amazon Glue 版本 0.9。有关 Amazon Glue 版本的更多信息,请参阅 Glue version job property。有关其他命令行参数的信息,请参阅《Amazon CLI 命令参考》中的创建开发端点。
-
(可选)输入以下命令可检查开发终端节点状态。如果状态变为
READY
,则开发终端节点已可供使用。aws glue get-dev-endpoint --endpoint-name "endpoint1"