AWS Glue 的文档历史记录 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

AWS Glue 的文档历史记录

变更 说明 日期

支持为分区清理创建表索引

添加了有关创建表索引的信息,允许您从表检索分区的子集。更多信息,请参阅 使用分区索引.

September 9, 2020

支持限制并行工作流运行次数。

添加了有关如何限制特定工作流的并发工作流运行次数的信息。更多信息,请参阅 使用创建和构建工作流 AWS Glue 控制台.

August 10, 2020

在Glue版本2.0中运行ApacheSparkETL作业时,支持缩短启动时间。

添加了有关支持Glue版本2.0的信息,该版本提供了用于运行ApacheSparkETL作业的升级基础设施,缩短了启动时间,日志更改,并支持在作业级别指定其他Python模块。更多信息,请参阅 《AW胶释放说明》缩短启动时间,运行SparkETL工作.

August 10, 2020

支持爬行 Amazon S3 使用VPC终点的数据存储

添加了有关配置 Amazon S3 仅供azon虚拟私人云环境(azonVPC)访问的数据仓库,用于安全、审计或控制目的。更多信息,请参阅 使用VPC终端爬网alirocumabS3数据存储.

August 7, 2020

支持恢复工作流运行

添加了有关如何恢复仅部分完成的工作流运行的信息,因为一个或多个节点(作业或爬网程序)未成功完成。更多信息,请参阅 修复和恢复工作流运行.

July 27, 2020

支持在Kafka连接中启用专用CA证书 AWS Glue.

添加了有关支持启用Kafka连接专用CA证书的新连接选项的信息 AWS Glue. 更多信息,请参阅 在ASHGlue中用于ETL的连接类型和选项特殊参数(由AWGlue使用).

July 20, 2020

支持阅读 DynamoDB 另一个帐户中的数据

添加了有关 AWS Glue 支持从另一个AW帐户读取数据 DynamoDB 表更多信息,请参阅 从另一个帐户的DynamoDB数据读取.

July 17, 2020

支持 DynamoDB Glue版本1.0或更高版本中的写入器连接

添加了有关支持 DynamoDB 编写者,以及新的或更新的连接选项 DynamoDB 阅读或写。有关更多信息,请参阅 AWS Glue ETL 的连接类型和选项

July 17, 2020

支持资源链接和跨帐户访问控制 AWS Glue 和 Lake Formation

添加了有关新 Data Catalog 名为资源链接的对象,以及如何管理共享 Data Catalog 跨客户的资源, AWS Glue 和 AWS Lake Formation. 更多信息,请参阅 授予跨客户访问权限表资源链接.

July 7, 2020

在对 DynamoDB 数据存储进行爬网时,支持对记录进行采样

添加了有关在对 DynamoDB 数据存储进行爬网时可配置的新属性的信息。有关更多信息,请参阅爬网程序属性

June 12, 2020

支持停止工作流程运行。

添加了有关如何停止特定工作流程的工作流程运行的信息。有关更多信息,请参阅停止工作流程运行

May 14, 2020

支持 Spark 流式处理 ETL 作业

增加了有关使用流式处理数据源创建提取、转换和加载 (ETL) 作业的信息。有关更多信息,请参阅在 AWS Glue 中添加流式处理 ETL 作业

April 27, 2020

支持在运行 ETL 作业后在数据目录中创建表、更新架构和添加新分区

添加了有关如何启用创建表、更新架构和添加新分区以在数据目录中查看 ETL 作业结果的信息。有关更多信息,请参阅在数据目录中通过 AWS Glue ETL 作业创建表、更新架构和添加新分区

April 2, 2020

支持在 AWS Glue 中将 Apache Avro 数据格式的版本指定为 ETL 输入和输出。

添加了有关在 AWS Glue 中将 Apache Avro 数据格式的版本指定为 ETL 输入和输出的信息。默认版本 1.7。您可以使用 version 格式选项指定 Avro 版本 1.8 以启用逻辑读取/写入。有关更多信息,请参阅 AWS Glue 中 ETL 输入和输出的格式选项

March 31, 2020

支持 EMRFS 经 S3 优化的提交程序,用于将 Parquet 数据写入 Amazon S3。

添加了有关如何设置新标志以启用经 EMRFR S3 优化的提交程序在创建或更新 AWS Glue 作业时将 Parquet 数据写入 Amazon S3 的信息。有关更多信息,请参阅 AWS Glue 使用的特殊参数

March 30, 2020

支持将机器学习转换作为由 AWS 资源标签管理的资源

增加了有关使用 AWS 资源标签管理和控制对 AWS Glue 中的机器学习转换的访问的信息。您可以将 AWS 资源标签分配给 AWS Glue 中的作业、触发器、终端节点、爬网程序和机器学习转换。有关更多信息,请参阅 AWS Glue 中的 AWS 标签

March 2, 2020

对于不可覆盖的作业参数的支持

添加了有关对于特殊作业参数的支持的信息,您无法在触发器中或运行作业时覆盖这些参数。有关更多信息,请参阅在 AWS Glue 中添加作业

February 12, 2020

支持新的转换以在 Amazon S3 中使用数据集

添加了有关新转换(合并、清除和过渡)和 Amazon S3 存储类排除的信息,以便 Apache Spark 应用程序在 Amazon S3 中使用数据集。有关对适用于 Python 的这些转换的支持的更多信息,请参阅 mergeDynamicFrame在 Amazon S3 中使用数据集。对于 Scala,请参阅 mergeDynamicFramesAWS Glue Scala GlueContext API

January 16, 2020

支持使用 ETL 作业中的新分区信息更新 Data Catalog

添加了有关如何对提取、转换和加载 (ETL) 脚本进行编码以使用新的分区信息更新 AWS Glue 数据目录 的信息。使用此功能,您不再需要在作业完成后重新运行爬网程序来查看新分区。有关更多信息,请参阅使用新分区更新 Data Catalog

January 15, 2020

新教程: 使用 SageMaker 笔记本

添加了一个教程,该教程演示如何使用 Amazon SageMaker 笔记本来帮助开发 ETL 和机器学习脚本。见 教程: 使用带有您的发展终点的alirocumabSageMaker笔记本.

January 3, 2020

对于从 MongoDB 和 Amazon DocumentDB(具有 MongoDB 兼容性)读取数据的支持

添加了有关用于读写 MongoDB 和 Amazon DocumentDB(具有 MongoDB 兼容性)的新连接类型和连接选项的信息。有关更多信息,请参阅 AWS Glue ETL 的连接类型和选项

December 17, 2019

各种更正和说明

全文中添加了更正和说明。从“已知问题”一章中删除了条目。添加了指示 AWS Glue 仅在指定数据目录加密设置和创建安全配置时支持对称客户主密钥 (CMK) 的警告。添加了指示 AWS Glue 不支持写入 Amazon DynamoDB 的注释。

December 9, 2019

支持自定义 JDBC 驱动程序

添加了有关使用 AWS Glue 本身不支持的 JDBC 驱动程序(例如 MySQL 版本 8 和 Oracle 数据库版本 18)连接到数据源和目标的信息。有关更多信息,请参阅 JDBC 连接类型值

November 25, 2019

机器学习转换中支持 Glue 版本

添加了有关在机器学习转换中定义 Glue 版本的信息,以指示机器学习转换与与哪个版本的 AWS Glue 兼容。有关更多信息,请参阅在 AWS Glue 控制台上使用机器学习转换

November 21, 2019

支持将 SageMaker 笔记本连接到不同的开发终端节点

添加了有关您如何将 SageMaker 笔记本连接到不同的开发终端节点的信息。进行了更新以描述用于切换到新的开发终端节点的新控制台操作以及新的 SageMaker IAM 策略。有关更多信息,请参阅在 AWS Glue 控制台上使用笔记本为 Amazon SageMaker 笔记本创建 IAM 策略

November 21, 2019

支持倒回作业书签

添加了有关将您的作业书签倒回之前的任何作业运行,从而使后续作业运行只再处理已做上标签的作业的信息。描述了允许您在两个书签之间运行作业的 job-bookmark-pause 选项的两个新子选项。有关更多信息,请参阅使用作业书签来跟踪已处理的数据由 AWS Glue 使用的特殊参数

October 22, 2019

支持自定义 JDBC 证书以连接到数据存储

添加了有关 AWS Glue 支持自定义 JDBC 证书以实现与 AWS Glue 数据源或目标的 SSL 连接的信息。有关更多信息,请参阅使用 AWS Glue 控制台上的连接

October 10, 2019

支持 Python Wheel

添加了有关 AWS Glue 支持 wheel 文件(以及 egg 文件)作为 Python shell 作业的依赖项的信息。有关更多信息,请参阅提供您自己的 Python 库

September 26, 2019

支持使用 Spark UI 监控 AWS Glue

添加了有关使用 Apache Spark UI 监控和调试在 AWS Glue 作业系统上运行的 AWS Glue ETL 作业以及在 AWS Glue 开发终端节点上运行的 Spark 应用程序的信息。有关更多信息,请参阅使用 Spark UI 监控 AWS Glue

September 19, 2019

支持 AWS Glue 中的开发终端节点的版本控制

添加了有关定义 Glue version 开发终点中。Glue version 确定ApacheSpark和Python的版本, AWS Glue 支持。有关更多信息,请参阅添加开发终端节点

September 19, 2019

增强了对使用公共 AWS Glue ETL 库进行本地 ETL 脚本开发的支持

更新了 AWS Glue ETL 库内容以反映现在支持 AWS Glue 版本 1.0。有关更多信息,请参阅使用 AWS Glue ETL 库在本地开发和测试 ETL 脚本

September 18, 2019

支持在运行作业时排除 Amazon S3 存储类

添加了有关在运行从 Amazon S3 中读取文件或分区的 AWS Glue ETL 作业时排除 Amazon S3 存储类的信息。有关更多信息,请参阅排除 Amazon S3 存储类

August 29, 2019

支持使用公共 AWS Glue ETL 库进行本地 ETL 脚本开发

添加了有关如何在本地开发和测试 Python 和 Scala ETL 脚本,而无需网络连接的信息。有关更多信息,请参阅使用 AWS Glue ETL 库在本地开发和测试 ETL 脚本

August 28, 2019

已知问题

添加了有关 AWS Glue 中已知问题的信息。有关更多信息,请参阅 AWS Glue 的已知问题

August 28, 2019

支持 AWS Glue 中的机器学习转换

添加了有关 AWS Glue 提供的用以创建自定义转换的机器学习功能的信息。您可以在创建作业时创建这些转换。有关更多信息,请参阅 AWS Glue 中的机器学习转换

August 8, 2019

支持共享的 Amazon Virtual Private Cloud

添加了有关共享 Amazon Virtual Private Cloud 的 AWS Glue 支持的信息。有关更多信息,请参阅共享的 Amazon VPC

August 6, 2019

支持开发终端节点的其他配置选项

针对具有内存密集型工作负载的开发终端节点,添加了有关配置选项的信息。您现在可以从两个新配置中进行选择,这两个新配置可为每个执行程序提供更多内存。有关更多信息,请参阅在 AWS Glue 控制台上使用开发终端节点

July 24, 2019

支持 AWS Glue 中的版本控制

添加了有关在作业属性中定义 Glue version 的信息。Glue 版本决定了 AWS Glue 支持的 Apache Spark 和 Python 版本。有关更多信息,请参阅在 AWS Glue 中添加作业

July 24, 2019

支持使用工作流程执行提取、转换和加载 (ETL) 活动

添加了有关使用称为工作流程的新构造的信息,以设计可由 AWS Glue 作为单个实体执行和跟踪的复杂的多作业提取、转换和加载 (ETL) 活动。有关更多信息,请参阅使用 AWS Glue 中的工作流程执行复杂的 ETL 活动

June 20, 2019

支持 Python 外壳作业中的 Python 3.6

增加了在 Python 外壳作业中对 Python 3.6 的支持的相关信息。您可以指定 Python 2.7 或 Python 3.6 作为作业属性。有关更多信息,请参阅在 AWS Glue 中添加 Python Shell 作业

June 5, 2019

支持 Virtual Private Cloud (VPC) 终端节点

添加了有关在 VPC 中通过接口终端节点直接连接到 AWS Glue 的信息。当您使用 VPC 接口终端节点时,您的 VPC 与 AWS Glue 之间的通信完全在 AWS 网络内安全进行。有关更多信息,请参阅将 AWS Glue 与 VPC 终端节点结合使用

June 4, 2019

支持对 AWS Glue 作业进行实时的连续日志记录。

增加了在 CloudWatch 中启用和查看实时 Apache Spark 作业日志的相关信息,包括驱动程序日志、各个执行程序日志以及 Spark 作业进度栏。有关更多信息,请参阅 AWS Glue 作业的连续日志记录

May 28, 2019

支持将现有 Data Catalog 表作为爬网程序源

添加了有关将现有 Data Catalog 表的列表指定为爬网程序源的信息。然后,当新数据变为可用时,爬网程序可以检测对表架构的更改、更新表定义并注册新分区。有关更多信息,请参阅爬网程序属性

May 10, 2019

对于内存密集型任务支持额外的配置选项

针对具有内存密集型工作负载的 Apache Spark 任务,添加了有关配置选项的信息。您现在可以从两个新配置中进行选择,这两个新配置可为每个执行程序提供更多内存。有关更多信息,请参阅在 AWS Glue 中添加作业

April 5, 2019

支持 CSV 自定义分类器

添加了有关使用自定义 CSV 分类器来推断各种类型的 CSV 数据的架构的信息。有关更多信息,请参阅编写自定义分类器

March 26, 2019

支持 AWS 资源标签

添加了有关使用 AWS 资源标签来帮助您管理和控制对 AWS Glue 资源的访问的信息。您可以在 AWS Glue 中将 AWS 资源标签分配给作业、触发器、终端节点和爬网程序。有关更多信息,请参阅 AWS Glue 中的 AWS 标签

March 20, 2019

支持 Spark SQL 作业的 AWS Glue 数据目录

添加了有关配置您的 AWS Glue 作业和开发终端节点以使用 AWS Glue 数据目录作为外部 Apache Hive 元存储的信息。这允许作业和开发终端节点直接对存储在 AWS Glue 数据目录中的表运行 Apache Spark SQL 查询。有关更多信息,请参阅 Spark SQL 作业的 AWS Glue 数据目录支持

March 14, 2019

支持 Python shell 作业

添加了有关 Python shell 作业和新字段 Maximum capacity (最大容量) 的信息。有关更多信息,请参阅在 AWS Glue 中添加 Python Shell 作业

January 18, 2019

支持数据库和表发生更改时的通知

添加了有关为数据库、表和分区 API 调用的更改生成的事件的信息。您可以在 CloudWatch Events 中配置操作以响应这些事件。有关更多信息,请参阅使用 CloudWatch Events 自动化 AWS Glue

January 16, 2019

支持加密连接密码

添加了有关加密连接对象中所用密码的信息。有关更多信息,请参阅加密连接密码

December 11, 2018

对于资源级权限和基于资源的策略的支持

添加了有关将资源级权限和基于资源的策略用于 AWS Glue 的信息。有关更多信息,请参阅 AWS Glue 中的安全性中的主题。

October 15, 2018

对 SageMaker 笔记本的支持

添加了有关将 SageMaker 笔记本用于 AWS Glue 开发终端节点的信息。有关更多信息,请参阅管理笔记本

October 5, 2018

对加密的支持

添加了有关对 AWS Glue 使用加密的信息。有关更多信息,请参阅静态加密传输中加密在 AWS Glue 中设置加密

August 24, 2018

Apache Spark 作业指标支持

添加了有关使用 Apache Spark 指标的信息,以便更好地调试和分析 ETL 作业。您可以轻松跟踪运行时指标,例如读取和写入的字节数,驱动程序和执行程序的内存使用率和 CPU 负载,以及来自 AWS Glue 控制台的执行程序之间的数据随机排序。有关更多信息,请参阅使用 CloudWatch 指标监控 AWS Glue作业监控和调试以及在 AWS Glue 控制台上处理作业

July 13, 2018

支持将 DynamoDB 作为数据源

添加了有关网络爬取 DynamoDB 以及将其用作 ETL 作业的数据源的信息。有关更多信息,请参阅使用爬网程序编录表连接参数

July 10, 2018

更新以创建笔记本服务器过程

更新了有关如何在与开发终端节点相关联的 Amazon EC2 实例上创建笔记本服务器的信息。有关更多信息,请参阅创建与开发终端节点相关联的笔记本服务器

July 9, 2018

现在可通过 RSS 更新

现在您可以订阅 RSS 源来接收有关 AWS Glue 开发人员指南更新的通知。

June 25, 2018

支持作业的延迟通知

添加了有关在作业运行时配置延迟阈值的信息。有关更多信息,请参阅在 AWS Glue 中添加作业

May 25, 2018

配置爬网程序以追加新列

添加了有关爬网程序的新配置选项 MergeNewColumns 的信息。有关更多信息,请参阅配置爬网程序

May 7, 2018

支持作业超时

添加了有关在作业运行时设置超时阈值的信息。有关更多信息,请参阅在 AWS Glue 中添加作业

April 10, 2018

支持 Scala ETL 脚本并基于其他运行状态触发作业

添加了有关使用 Scala 作为 ETL 编程语言的信息。此外,触发器 API 现在还支持在满足任意条件时触发 (除所有条件之外)。此外,还可以基于“失败”或“已停止”的作业运行触发作业 (除“已成功”的作业运行之外)。

January 12, 2018

早期更新

下表描述 2018 年 1 月之前发布的每个 AWS Glue 开发人员指南中的重要变化。

更改 Description Date
支持 XML 数据源和新的爬网程序配置选项 添加了有关为分区更改分类 XML 数据源和新爬网程序选项的信息。 2017 年 11 月 16 日
新转换、对其他 Amazon RDS 数据库引擎的支持以及开发终端节点增强功能 添加了有关映射和筛选转换、对 Amazon RDS Microsoft SQL Server 和 Amazon RDS Oracle 的支持以及开发终端节点的新功能的信息。 2017 年 9 月 29 日
AWS Glue 初始版本 这是 AWS Glue 开发人员指南的初始版本。 2017 年 8 月 14 日