AWS Glue 发布说明 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS Glue 发布说明

在添加或更新作业时,将配置 AWS Glue 版本参数。AWS Glue 版本确定 AWS Glue 支持的 Apache Spark 和 Python 的版本。Python 版本指示了 Spark 类型的作业支持的版本。下表列出了可用的 AWS Glue 版本、相应的 Spark 和 Python 版本以及功能的其他更改。

AWS Glue 版本

AWS Glue version 支持的 Spark 和 Python 版本 功能更改
AWS Glue 0.9
  • Spark 2.2.1

  • Python 2.7

在未指定 AWS Glue 版本的情况下创建的作业默认为 AWS Glue 0.9。

AWS Glue 1.0
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

您可以在 AWS Glue ETL 作业中维护 Parquet 和 ORC 格式的作业书签(使用 AWS Glue 版本 1.0)。以前,您只能在 AWS Glue ETL 作业中为常见的 Amazon S3 源格式添加书签,例如 JSON、CSV、Apache Avro 和 XML。

为 ETL 输入和输出设置格式选项时,您可以指定使用 Apache Avro 读取器/写入器格式 1.8 以支持 Avro 逻辑类型读取和写入(使用 AWS Glue 版本 1.0)。以前,只支持版本 1.7 Avro 读取器/写入器格式。

连接类型支持写入器选项(使用 DynamoDB 版本 1.0)。AWS Glue

AWS Glue 2.0
  • Spark 2.4.3

  • Python 3.7

除了 AWS Glue 1.0 版中提供的功能之外,AWS Glue 2.0 版还提供:

  • 用于在 AWS Glue 中运行 Apache Spark ETL 作业的升级基础设施,减少了启动时间。

  • 默认日志记录现在是实时的,具有用于驱动程序和执行程序的单独流以及输出和错误。

  • 支持在作业级别指定其他 Python 模块或不同版本。

有关 AWS Glue 2.0 功能和限制的更多信息,请参阅运行 Spark ETL 作业并缩短启动时间