提供您自己的自定义脚本
脚本在 Amazon Glue 中执行提取、转换和加载 (ETL) 工作。当您为作业自动生成源代码逻辑时,将会创建一个脚本。您可以编辑这个生成的脚本,也可以提供您自己的自定义脚本。
不同版本的 Amazon Glue 支持不同版本的 Apache Spark。您的自定义脚本必须与受支持的 Apache Spark 版本兼容。有关 Amazon Glue 版本的信息,请参阅 Glue version job property。
要在 Amazon Glue 中提供您自己的自定义脚本,请遵循以下常规步骤:
-
登录 Amazon Web Services Management Console,然后打开 Amazon Glue 控制台,网址为:https://console.aws.amazon.com/glue/
。 -
选择 Jobs 选项卡,然后选择 Add job 以启动 Add job 向导。
-
在 Job properties 屏幕中,选择运行您的自定义脚本所需的 IAM role。有关更多信息,请参阅适用于 Amazon Glue 的 Identity and Access Management。
-
在 This job runs 下,选择以下内容之一:
您提供的现有脚本
-
要由您创作的新脚本
选择您的脚本引用的任何连接。需要这些对象才能连接到必要的 JDBC 数据存储。
弹性网络接口 (ENI) 是一种虚拟网络接口,您可以将其连接至 Virtual Private Cloud(VPC)中的实例。选择连接到脚本中使用的数据存储所需的弹性网络接口。
-
如果您的脚本需要额外的库或文件,您可以指定它们,如下所示:
- Python 库路径
-
以逗号分隔的到脚本所需的 Python 库的 Amazon Simple Storage Service(Amazon S3)路径。
注意 只能使用纯 Python 库。尚不支持依赖于 C 扩展的库,如 pandas Python 数据分析库。
- 从属 jars 路径
-
脚本所需的以逗号分隔的到 JAR 文件的 Amazon S3 路径。
注意 目前,只能使用纯 Java 或 Scala (2.11) 库。
- 引用的文件路径
-
以逗号分隔的到脚本所需的其他文件(例如,配置文件)的 Amazon S3 路径。
-
如果需要,您可以向您的作业添加计划。要更改计划,您必须删除现有的计划并添加一个新计划。
有关在 Amazon Glue 中添加作业的更多信息,请参阅在 Amazon Glue 中添加作业。
有关分步指导,请参阅 控制台中的 Add jobAmazon Glue 教程。