提供您自己的自定义脚本 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

提供您自己的自定义脚本

脚本在 Amazon Glue 中执行提取、转换和加载 (ETL) 工作。当您为作业自动生成源代码逻辑时,将会创建一个脚本。您可以编辑这个生成的脚本,也可以提供您自己的自定义脚本。

重要

不同版本的 Amazon Glue 支持不同版本的 Apache Spark。您的自定义脚本必须与受支持的 Apache Spark 版本兼容。有关 Amazon Glue 版本的信息,请参阅 Glue version job property

要在 Amazon Glue 中提供您自己的自定义脚本,请遵循以下常规步骤:

  1. 登录 Amazon Web Services Management Console,然后打开 Amazon Glue 控制台,网址为:https://console.aws.amazon.com/glue/

  2. 选择 Jobs 选项卡,然后选择 Add job 以启动 Add job 向导。

  3. Job properties 屏幕中,选择运行您的自定义脚本所需的 IAM role。有关更多信息,请参阅适用于 Amazon Glue 的 Identity and Access Management

  4. This job runs 下,选择以下内容之一:

    • 您提供的现有脚本

    • 要由您创作的新脚本

  5. 选择您的脚本引用的任何连接。需要这些对象才能连接到必要的 JDBC 数据存储。

    弹性网络接口 (ENI) 是一种虚拟网络接口,您可以将其连接至 Virtual Private Cloud(VPC)中的实例。选择连接到脚本中使用的数据存储所需的弹性网络接口。

  6. 如果您的脚本需要额外的库或文件,您可以指定它们,如下所示:

    Python 库路径

    以逗号分隔的到脚本所需的 Python 库的 Amazon Simple Storage Service(Amazon S3)路径。

    注意

    只能使用纯 Python 库。尚不支持依赖于 C 扩展的库,如 pandas Python 数据分析库。

    从属 jars 路径

    脚本所需的以逗号分隔的到 JAR 文件的 Amazon S3 路径。

    注意

    目前,只能使用纯 Java 或 Scala (2.11) 库。

    引用的文件路径

    以逗号分隔的到脚本所需的其他文件(例如,配置文件)的 Amazon S3 路径。

  7. 如果需要,您可以向您的作业添加计划。要更改计划,您必须删除现有的计划并添加一个新计划。

有关在 Amazon Glue 中添加作业的更多信息,请参阅在 Amazon Glue 中添加作业

有关分步指导,请参阅 控制台中的 Add jobAmazon Glue 教程。