AWS Glue 发行说明 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

AWS Glue 发行说明

当添加或更新作业时,会配置 Glue 版本参数。Glue 版本决定了 AWS Glue 支持的 Apache Spark 和 Python 版本。Python 版本指示了 Spark 类型的作业支持的版本。下表列出了可用的 Glue 版本、相应的 Spark 和 Python 版本以及其他功能更改。

AWS Glue 版本

Glue 版本 支持的 Spark 和 Python 版本 功能更改
Glue 0.9
  • Spark 2.2.1

  • Python 2.7

在未指定 Glue 版本的情况下,创建的作业默认为 Glue 0.9。

Glue 1.0
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

您可以在 Glue ETL 作业中维护 Parquet 和 ORC 格式的作业书签(使用 Glue 版本 1.0)。之前,您只能通过书签 Amazon S3 源格式,例如JSON、CSV、ApacheAVRO和XML AWS Glue ETL职位。

为 ETL 输入和输出设置格式选项时,您可以指定使用 Apache Avro 读取器/写入器格式 1.8 来支持 Avro 逻辑类型读取和写入(使用 Glue 版本 1.0)。以前,只支持版本 1.7 Avro 读取器/写入器格式。

DynamodB连接类型支持编写器选项(使用GLUE版本1.0)。

Glue 2.0
  • Spark 2.4.3

  • Python 3.7

除了胶粘版本1.0中提供的功能之外,GLUE版本2.0还提供:

  • 用于运行ApacheSparkETL工作的升级基础架构 AWS Glue 启动时间缩短。

  • 默认日志记录现在已经实时完成,驱动程序和执行机构的独立流、输出和错误。

  • 支持在工作级别指定其他Python模块或不同版本。

有关GLUE2.0特性和限制的更多信息,请参阅 运行火花ETL作业,启动时间缩短.