提供您自己的自定义脚本 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

提供您自己的自定义脚本

脚本在 AWS Glue 中执行提取、转换和加载 (ETL) 工作。当您为作业自动生成源代码逻辑时,将会创建一个脚本。您可以编辑这个生成的脚本,也可以提供您自己的自定义脚本。

重要

不同版本的 AWS Glue 支持不同版本的 Apache Spark。您的自定义脚本必须与受支持的 Apache Spark 版本兼容。有关 AWS Glue 版本的信息,请参阅 Glue version job property

要在 AWS Glue 中提供您自己的自定义脚本,请遵循以下常规步骤:

  1. 通过以下网址登录 AWS 管理控制台并打开 AWS Glue 控制台:https://console.amazonaws.cn/glue/

  2. 选择 Jobs 选项卡,然后选择 Add job 以启动 Add job 向导。

  3. Job properties 屏幕中,选择运行您的自定义脚本所需的 IAM role。有关更多信息,请参阅Identity and Access Management in AWS Glue

  4. This job runs 下,选择以下内容之一:

    • 您提供的现有脚本

    • 要由您创作的新脚本

  5. 选择您的脚本引用的任何连接。需要这些对象才能连接到必要的 JDBC 数据存储。

    弹性网络接口 (ENI) 是一种虚拟网络接口,您可以将其连接至虚拟私有云 (VPC) 中的实例。选择连接到脚本中使用的数据存储所需的弹性网络接口。

  6. 如果您的脚本需要额外的库或文件,您可以指定它们,如下所示:

    Python 库路径

    脚本所需的以逗号分隔的到 Python 库的 Amazon Simple Storage Service (Amazon S3) 路径。

    注意

    只能使用纯 Python 库。尚不支持依赖于 C 扩展的库,如 pandas Python 数据分析库。

    从属 jars 路径

    脚本所需的以逗号分隔的到 JAR 文件的 Amazon S3 路径。

    注意

    目前,只能使用纯 Java 或 Scala (2.11) 库。

    引用的文件路径

    以逗号分隔的 Amazon S3 路径,指向脚本所需的其他文件(例如,配置文件)。

  7. 如果需要,您可以向您的作业添加计划。要更改计划,您必须删除现有的计划并添加一个新计划。

有关在 AWS Glue 中添加作业的更多信息,请参阅在 中添加作业AWS Glue

有关分步指导,请参阅 AWS Glue 控制台中的 Add job (添加作业) 教程。