Amazon Glue 发布说明 - Amazon连接词
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Glue 发布说明

这些区域有:Amazon Glue版本参数是在添加或更新作业时配置的。Amazon Glue版本决定 Apache Spark 和 Python 版本Amazon Glue支持。Python 版本指示了 Spark 类型的作业支持的版本。下表列出了可用的Amazon Glue版本、相应的 Spark 和 Python 版本以及其他功能更改。

Amazon Glue 版本

Amazon Glue 版本 支持的 Spark 和 Python 版本 功能更改
Amazon Glue0.9
  • Spark 2.2.1

  • Python 2.7

在未指定的情况下,创建的作业Amazon Glue版本默认为Amazon Glue0.9

Amazon Glue 1.0
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

您可以在以下情况下维护 Parquet 和 ORC 格式的作业书签:Amazon GlueETL 作业(使用Amazon Glue版本 1.0)。以前,Amazon S3 只能在Amazon GlueETL 作业。

为 ETL 输入和输出设置格式选项时,您可以指定使用 Apache Avro 读取器/写入器格式 1.8 来支持 Avro 逻辑类型读取和写入(使用使用Amazon Glue版本 1.0)。以前,只支持版本 1.7 Avro 读取器/写入器格式。

DynamoDB 连接类型支持写入器选项(使用Amazon Glue版本 1.0)。

Amazon Glue 2.0
  • Spark 2.4.3

  • Python 3.7

除了Amazon Glue版本 1.0Amazon Glue版本 2.0 还提供:

  • 用于运行 Apache Spark ETL 作业的升级基础架构Amazon Glue并缩短启动时间。

  • 默认日志记录现在是实时的,具有驱动程序和执行程序的单独流以及输出和错误。

  • Support 在作业级别指定其他 Python 模块或不同版本。

注意

Amazon Glue版本 2.0Amazon Glue版本 1.0 用于某些依赖关系和版本,因为底层体系结构更改。请先验证您的 Glue 作业,然后再跨主要Amazon Glue版本发布。

有关 的更多信息Amazon Glue2.0 功能和限制,请参阅运行 Spark ETL 作业,缩短启动时间