在 Amazon Glue 控制台中编辑 Spark 脚本 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Amazon Glue 控制台中编辑 Spark 脚本

脚本包含从源中提取数据、转换数据并将其加载到目标中的代码。 Amazon Glue 在启动作业时运行脚本。

Amazon Glue ETL 脚本可使用 Python 或 Scala 编码。Python 脚本使用的语言是 PySpark Python 方言的扩展,用于提取、转换和加载 (ETL) 作业。脚本包含扩展构造,用于处理 ETL 转换。当您为作业自动生成源代码逻辑时,会创建脚本。您可以编辑此脚本,也可以提供自己的脚本来处理您的 ETL 作业。

有关如何在 Amazon Glue 中定义和编辑脚本的信息,请参阅 Amazon Glue 编程指南

其他库或文件

如果您的脚本需要额外的库或文件,您可以指定它们,如下所示:

Python 库路径

以逗号分隔的到脚本所需的 Python 库的 Amazon Simple Storage Service(Amazon S3)路径。

注意

只能使用纯 Python 库。尚不支持依赖于 C 扩展的库,如 pandas Python 数据分析库。

从属 jars 路径

脚本所需的以逗号分隔的到 JAR 文件的 Amazon S3 路径。

注意

目前,只能使用纯 Java 或 Scala (2.11) 库。

引用的文件路径

以逗号分隔的到脚本所需的其他文件(例如,配置文件)的 Amazon S3 路径。