AWS Glue 的文档历史记录 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS Glue 的文档历史记录

变更 说明 日期

支持在 Glue 版本 2.0 中运行流式处理 ETL 作业

添加了有关在 Glue 版本 2.0 中支持运行流式处理 ETL 作业的信息。有关更多信息,请参阅在 AWS Glue 中添加流式处理 ETL 作业

December 18, 2020

支持增强型分区管理

添加了有关如何使用新的 APIs 在现有表中添加或删除分区索引的信息。有关更多信息,请参阅使用分区索引

November 23, 2020

支持使用有界执行进行工作负载分区

添加了有关启用工作负载分区以配置数据集大小上限或在 ETL 作业运行上处理的文件数的信息。有关更多信息,请参阅使用有界执行进行工作负载分区

November 23, 2020

支持 AWS Glue 架构注册表

添加了有关使用 AWS Glue 架构注册表集中发现、控制和扩展架构的信息。有关更多信息,请参阅 架构注册表AWS Glue。

November 19, 2020

支持流式处理 ETL 作业中的 Grok 输入格式

添加了有关将 Grok 模式应用于流式传输源(如日志文件)的信息。有关更多信息,请参阅将 Grok 模式应用于流式传输源

November 17, 2020

支持在 AWS Glue 控制台上向工作流程添加标签

添加了有关在使用 AWS Glue 控制台创建工作流程时添加标签的信息。有关更多信息,请参阅使用 AWS Glue 控制台创建和构建工作流

October 27, 2020

支持增量爬网程序运行

添加了有关对增量爬网程序运行的支持的信息,这些运行只爬取自上次运行以来添加的 Amazon S3 文件夹。有关更多信息,请参阅增量爬网

October 21, 2020

支持流式处理 ETL 数据源的架构检测。支持 Avro 流式处理 ETL 数据源和自管理 Kafka

中的流式传输提取、转换和加载 (ETL) 作业现在可以自动检测传入记录的架构并基于记录来处理架构更改。AWS Glue现在支持自行管理的 Kafka 数据源。流式处理 ETL 作业现在支持数据源中的 Avro 格式。有关更多信息,请参阅 中的流式处理 ETLAWS Glue、为流式处理 ETL 作业定义作业属性Avro 流式传输源的说明和限制

October 7, 2020

支持对 MongoDB 和 DocumentDB 数据源进行爬网

添加了有关对 MongoDB 和 Amazon DocumentDB(与 MongoDB 兼容)数据源进行爬网的支持的信息。有关更多信息,请参阅定义爬网程序

October 5, 2020

支持 FIPS 合规性

添加了有关使用 AWS Glue 访问数据时需要 FIPS 140-2 验证加密模块的客户的 FIPS 终端节点的信息。有关更多信息,请参阅 FIPS 合规性

September 23, 2020

AWS Glue Studio 提供了一个易于使用的可视化界面,用于创建和监控作业

现在,您可以使用基于图形的简单界面编写用于移动和转换数据并在 AWS Glue 上运行数据的作业。然后,您可以使用 AWS Glue Studio 中的作业运行控制面板来监控 ETL 执行并确保您的作业按预期运行。有关更多信息,请参阅AWS Glue Studio 用户指南

September 23, 2020

支持创建表索引以提高查询性能

添加了有关创建表索引的信息,以便您能够从表中检索分区的子集。有关更多信息,请参阅使用分区索引

September 9, 2020

支持限制并发工作流程运行数。

添加了有关如何限制特定工作流程的并发工作流程运行数的信息。有关更多信息,请参阅使用 AWS Glue 控制台创建和构建工作流

August 10, 2020

在 AWS Glue 版本 2.0 中运行 Apache Spark ETL 作业时,支持缩短的启动时间。

添加了有关对 AWS Glue 版本 2.0 的支持的信息,该版本为运行 Apache Spark ETL 作业提供了升级的基础设施(减少了启动时间)、日志记录中的更改,并支持在作业级别指定其他 Python 模块。有关更多信息,请参阅 AWS Glue 发布说明运行 Spark ETL 作业并缩短启动时间

August 10, 2020

支持使用 VPC 终端节点网络爬取 Amazon S3 数据存储

添加了有关将 Amazon S3 数据存储配置为仅由 Amazon Virtual Private Cloud 环境 (Amazon VPC) 进行访问(用于安全、审计或控制目的)的信息。有关更多信息,请参阅使用 VPC 终端节点对 Amazon S3 数据存储进行爬网

August 7, 2020

支持恢复工作流程运行

添加了有关如何恢复由于一个或多个节点(作业或爬网程序)未成功完成而仅部分完成的工作流程运行的信息。有关更多信息,请参阅修复和恢复工作流程运行

July 27, 2020

支持在 AWS Glue 中的 Kafka 连接中启用私有 CA 证书。

添加了有关新的连接选项的信息,这些选项支持在 AWS Glue 中为 Kafka 连接启用私有 CA 证书。有关更多信息,请参阅 中的 ETL 的连接类型和选项AWS Glue和 使用的特殊参数。AWS Glue

July 20, 2020

支持读取另一个账户中的 DynamoDB 数据

添加了有关 AWS Glue 支持从其他 AWS 账户的 DynamoDB 表读取数据的信息。有关更多信息,请参阅从其他账户中的 DynamoDB 数据读取

July 17, 2020

在 DynamoDB 版本 1.0 或更高版本中支持 AWS Glue 写入器连接

添加了有关对 DynamoDB 写入器的支持以及供 DynamoDB 读取或写入的新的或更新的连接选项的信息。有关更多信息,请参阅 中的 ETL 的连接类型和选项AWS Glue。

July 17, 2020

支持资源链接和使用 AWS Glue 和 Lake Formation 的跨账户访问控制

添加了有关称为资源链接的新 Data Catalog 对象以及如何管理与 Data Catalog 和 AWS Glue 跨账户共享 AWS Lake Formation 资源的内容。有关更多信息,请参阅授予跨账户访问权限表资源链接

July 7, 2020

在对 DynamoDB 数据存储进行爬网时,支持对记录进行采样

添加了有关在对 DynamoDB 数据存储进行爬网时可配置的新属性的信息。有关更多信息,请参阅爬网程序属性

June 12, 2020

支持停止工作流程运行。

添加了有关如何停止特定工作流程的工作流程运行的信息。有关更多信息,请参阅停止工作流程运行

May 14, 2020

支持 Spark 流式处理 ETL 作业

增加了有关使用流式处理数据源创建提取、转换和加载 (ETL) 作业的信息。有关更多信息,请参阅在 AWS Glue 中添加流式处理 ETL 作业

April 27, 2020

支持在运行 ETL 作业后在数据目录中创建表、更新架构和添加新分区

添加了有关如何启用创建表、更新架构和添加新分区以在数据目录中查看 ETL 作业结果的信息。有关更多信息,请参阅在 Data Catalog 中通过 AWS Glue ETL 作业创建表、更新架构和添加新分区

April 2, 2020

支持在 AWS Glue 中将 Apache Avro 数据格式的版本指定为 ETL 输入和输出。

添加了有关在 AWS Glue 中将 Apache Avro 数据格式的版本指定为 ETL 输入和输出的信息。默认版本 1.7。您可以使用 version 格式选项指定 Avro 版本 1.8 以启用逻辑读取/写入。有关更多信息,请参阅 中的 ETL 输入和输出的格式选项AWS Glue。

March 31, 2020

支持 EMRFS 经 S3 优化的提交程序,用于将 Parquet 数据写入 Amazon S3。

添加了有关如何设置新标志以启用经 EMRFR S3 优化的提交程序在创建或更新 AWS Glue 作业时将 Parquet 数据写入 Amazon S3 的信息。有关更多信息,请参阅 AWS Glue 所使用的特殊参数

March 30, 2020

支持将机器学习转换作为由 AWS 资源标签管理的资源

增加了有关使用 AWS 资源标签管理和控制对 AWS Glue 中的机器学习转换的访问的信息。您可以将 AWS 资源标签分配给 AWS Glue 中的作业、触发器、终端节点、爬网程序和机器学习转换。有关更多信息,请参阅 中的 AWS 标签AWS Glue。

March 2, 2020

对于不可覆盖的作业参数的支持

添加了有关对于特殊作业参数的支持的信息,您无法在触发器中或运行作业时覆盖这些参数。有关更多信息,请参阅在 AWS Glue 中添加作业

February 12, 2020

支持新的转换以在 Amazon S3 中使用数据集

添加了有关新转换(合并、清除和过渡)和 Amazon S3 存储类排除的信息,以便 Apache Spark 应用程序在 Amazon S3 中使用数据集。有关支持适用于 Python 的这些转换的更多信息,请参阅mergeDynamicFrame在 Amazon S3 中使用数据集。对于 Scala,请参阅 mergeDynamicFramesAWS Glue Scala GlueContext APIs

January 16, 2020

支持使用 ETL 作业中的新分区信息更新 Data Catalog

添加了有关如何对提取、转换和加载 (ETL) 脚本进行编码以使用新的分区信息更新 AWS Glue 数据目录 的信息。使用此功能,您不再需要在作业完成后重新运行爬网程序来查看新分区。有关更多信息,请参阅使用新分区更新 Data Catalog

January 15, 2020

新教程:使用 SageMaker 笔记本

添加了演示如何使用 Amazon SageMaker 笔记本帮助开发 ETL 和机器学习脚本的教程。请参阅教程: 将 Amazon SageMaker 笔记本与您的开发终端节点结合使用

January 3, 2020

支持从 MongoDB 和 Amazon DocumentDB 读取(具有 MongoDB 兼容性)

添加了有关用于从 MongoDB 和 Amazon DocumentDB(具有 MongoDB 兼容性)读取和写入的新连接类型和连接选项的信息。有关更多信息,请参阅 中的 ETL 的连接类型和选项AWS Glue。

December 17, 2019

各种更正和说明

全文中添加了更正和说明。从“已知问题”一章中删除了条目。添加了指示 AWS Glue 仅在指定数据目录加密设置和创建安全配置时支持对称客户主密钥 (CMK) 的警告。添加了指示 AWS Glue 不支持写入 Amazon DynamoDB 的注释。

December 9, 2019

支持自定义 JDBC 驱动程序

添加了有关使用 AWS Glue 本身不支持的 JDBC 驱动程序(如 MySQL 版本 8 和 Oracle 数据库版本 18)连接到数据源和目标的信息。有关更多信息,请参阅 JDBC connectionType 值

November 25, 2019

机器学习转换中对 AWS Glue 版本的支持

添加了有关在机器学习转换中定义 AWS Glue 版本的信息,以指示机器学习转换与哪个版本的 AWS Glue 兼容。有关更多信息,请参阅在 AWS Glue 控制台上使用机器学习转换

November 21, 2019

支持将 SageMaker 笔记本连接到不同的开发终端节点

添加了有关您如何将 SageMaker 笔记本连接到不同的开发终端节点的信息。进行了更新以描述用于切换到新开发终端节点的新控制台操作,以及新的 SageMaker IAM 策略。有关更多信息,请参阅在 AWS Glue 控制台上使用笔记本为 IAM 笔记本创建 Amazon SageMaker 策略

November 21, 2019

支持倒回作业书签

添加了有关将您的作业书签倒回之前的任何作业运行,从而使后续作业运行只再处理已做上标签的作业的信息。描述了允许您在两个书签之间运行作业的 job-bookmark-pause 选项的两个新子选项。有关更多信息,请参阅使用作业书签来跟踪已处理的数据 使用的特殊参数AWS Glue。

October 22, 2019

支持自定义 JDBC 证书以连接到数据存储

添加了有关 AWS Glue 支持自定义 JDBC 证书以实现与 AWS Glue 数据源或目标的 SSL 连接的信息。有关更多信息,请参阅在 AWS Glue 控制台上使用连接

October 10, 2019

支持 Python Wheel

添加了有关 AWS Glue 支持 wheel 文件(以及 egg 文件)作为 Python shell 作业的依赖项的信息。有关更多信息,请参阅提供您自己的 Python 库

September 26, 2019

支持使用 Spark UI 监控 AWS Glue

添加了有关使用 Apache Spark UI 监控和调试在 AWS Glue 作业系统上运行的 AWS Glue ETL 作业以及在 AWS Glue 开发终端节点上运行的 Spark 应用程序的信息。有关更多信息,请参阅使用 Spark UI 监控 AWS Glue。

September 19, 2019

支持 AWS Glue 中的开发终端节点的版本控制

添加了有关在开发终端节点中定义 Glue version 的信息。Glue version 确定 AWS Glue 支持的 Apache Spark 和 Python 的版本。有关更多信息,请参阅添加开发终端节点

September 19, 2019

增强了对使用公共 AWS Glue ETL 库进行本地 ETL 脚本开发的支持

更新了 AWS Glue ETL 库内容以反映现在支持 AWS Glue 版本 1.0。有关更多信息,请参阅使用 AWS Glue ETL 库在本地开发和测试 ETL 脚本

September 18, 2019

支持在运行作业时排除 Amazon S3 存储类

添加了有关在运行从 Amazon S3 中读取文件或分区的 AWS Glue ETL 作业时排除 Amazon S3 存储类的信息。有关更多信息,请参阅排除 Amazon S3 存储类

August 29, 2019

支持使用公共 AWS Glue ETL 库进行本地 ETL 脚本开发

添加了有关如何在本地开发和测试 Python 和 Scala ETL 脚本,而无需网络连接的信息。有关更多信息,请参阅使用 AWS Glue ETL 库在本地开发和测试 ETL 脚本

August 28, 2019

已知问题

添加了有关 AWS Glue 中已知问题的信息。有关更多信息,请参阅 AWS Glue 的已知问题

August 28, 2019

支持 AWS Glue 中的机器学习转换

添加了有关 AWS Glue 提供的用以创建自定义转换的机器学习功能的信息。您可以在创建作业时创建这些转换。有关更多信息,请参阅 AWS Glue 中的机器学习转换

August 8, 2019

支持共享的 Amazon Virtual Private Cloud

添加了有关共享 Amazon Virtual Private Cloud 的 AWS Glue 支持的信息。有关更多信息,请参阅共享的 Amazon VPCs

August 6, 2019

支持开发终端节点的其他配置选项

针对具有内存密集型工作负载的开发终端节点,添加了有关配置选项的信息。您现在可以从两个新配置中进行选择,这两个新配置可为每个执行程序提供更多内存。有关更多信息,请参阅在 AWS Glue 控制台上使用开发终端节点

July 24, 2019

支持 AWS Glue 中的版本控制

添加了有关在作业属性中定义 Glue version 的信息。AWS Glue 版本决定了 AWS Glue 支持的 Apache Spark 和 Python 的版本。有关更多信息,请参阅在 AWS Glue 中添加作业

July 24, 2019

支持使用工作流程执行提取、转换和加载 (ETL) 活动

添加了有关使用称为工作流程的新构造的信息,以设计可由 AWS Glue 作为单个实体执行和跟踪的复杂的多作业提取、转换和加载 (ETL) 活动。有关更多信息,请参阅使用 AWS Glue 中的工作流程执行复杂的 ETL 活动

June 20, 2019

支持 Python 外壳作业中的 Python 3.6

增加了在 Python 外壳作业中对 Python 3.6 的支持的相关信息。您可以指定 Python 2.7 或 Python 3.6 作为作业属性。有关更多信息,请参阅在 AWS Glue 中添加 Python Shell 作业

June 5, 2019

支持 Virtual Private Cloud (VPC) 终端节点

添加了有关在 VPC 中通过接口终端节点直接连接到 AWS Glue 的信息。当您使用 VPC 接口终端节点时,VPC 与 AWS Glue 之间的通信完全在 AWS 网络内安全进行。有关更多信息,请参阅将 AWS Glue 与 VPC 终端节点结合使用

June 4, 2019

支持对 AWS Glue 作业进行实时的连续日志记录。

增加了在 CloudWatch 中启用和查看实时 Apache Spark 作业日志的相关信息,包括驱动程序日志、各个执行程序日志以及 Spark 作业进度栏。有关更多信息,请参阅 AWS Glue 作业的连续日志记录

May 28, 2019

支持将现有 Data Catalog 表作为爬网程序源

添加了有关将现有 Data Catalog 表的列表指定为爬网程序源的信息。然后,当新数据变为可用时,爬网程序可以检测对表架构的更改、更新表定义并注册新分区。有关更多信息,请参阅爬网程序属性

May 10, 2019

对于内存密集型任务支持额外的配置选项

针对具有内存密集型工作负载的 Apache Spark 任务,添加了有关配置选项的信息。您现在可以从两个新配置中进行选择,这两个新配置可为每个执行程序提供更多内存。有关更多信息,请参阅在 AWS Glue 中添加作业

April 5, 2019

支持 CSV 自定义分类器

添加了有关使用自定义 CSV 分类器来推断各种类型的 CSV 数据的架构的信息。有关更多信息,请参阅编写自定义分类器

March 26, 2019

支持 AWS 资源标签

添加了有关使用 AWS 资源标签来帮助您管理和控制对 AWS Glue 资源的访问的信息。您可以在 AWS Glue 中将 AWS 资源标签分配给作业、触发器、终端节点和爬网程序。有关更多信息,请参阅 中的 AWS 标签AWS Glue。

March 20, 2019

支持 Data Catalog 用于 Spark SQL 作业

添加了有关配置 AWS Glue 作业和开发终端节点以使用 AWS Glue 数据目录 作为外部 Apache Hive 元存储的信息。这允许作业和开发终端节点直接对存储在 AWS Glue 数据目录 中的表运行 Apache Spark SQL 查询。有关更多信息,请参阅 AWS Glue 数据目录Spark SQL 作业支持

March 14, 2019

支持 Python shell 作业

添加了有关 Python shell 作业和新字段 Maximum capacity (最大容量) 的信息。有关更多信息,请参阅在 AWS Glue 中添加 Python Shell 作业

January 18, 2019

支持数据库和表发生更改时的通知

添加了有关为数据库、表和分区 API 调用的更改生成的事件的信息。您可以在 CloudWatch Events 中配置操作以响应这些事件。有关更多信息,请参阅使用 AWS Glue 自动执行 CloudWatch Events

January 16, 2019

支持加密连接密码

添加了有关加密连接对象中所用密码的信息。有关更多信息,请参阅加密连接密码

December 11, 2018

对于资源级权限和基于资源的策略的支持

添加了有关将资源级权限和基于资源的策略用于 AWS Glue 的信息。有关更多信息,请参阅 AWS Glue 中的安全性中的主题。

October 15, 2018

对 SageMaker 笔记本的支持

添加了有关将 SageMaker 笔记本用于 AWS Glue 开发终端节点的信息。有关更多信息,请参阅管理笔记本

October 5, 2018

对加密的支持

添加了有关对 AWS Glue 使用加密的信息。有关更多信息,请参阅静态加密传输中加密在 AWS Glue 中设置加密

August 24, 2018

Apache Spark 作业指标支持

添加了有关使用 Apache Spark 指标的信息,以便更好地调试和分析 ETL 作业。您可以轻松跟踪运行时指标,例如读取和写入的字节数、驱动程序和执行程序的内存使用率和 CPU 负载,以及来自 AWS Glue 控制台的执行程序之间的数据随机排序。有关更多信息,请参阅使用 AWS Glue 指标监控 CloudWatch、作业监控和调试以及 控制台上处理作业AWS Glue。

July 13, 2018

支持将 DynamoDB 作为数据源

添加了有关网络爬取 DynamoDB 以及将其用作 ETL 作业的数据源的信息。有关更多信息,请参阅使用爬网程序编录表连接参数

July 10, 2018

更新以创建笔记本服务器过程

更新了有关如何在与开发终端节点相关联的 Amazon EC2 实例上创建笔记本服务器的信息。有关更多信息,请参阅创建与开发终端节点相关联的笔记本服务器

July 9, 2018

现在可通过 RSS 更新

您现在可以订阅 RSS 源来接收有关 AWS Glue 开发人员指南指南更新的通知。

June 25, 2018

支持作业的延迟通知

添加了有关在作业运行时配置延迟阈值的信息。有关更多信息,请参阅在 AWS Glue 中添加作业

May 25, 2018

配置爬网程序以追加新列

增加了有关爬网程序的新配置选项 MergeNewColumns 的信息。 有关更多信息,请参阅配置爬网程序

May 7, 2018

支持作业超时

添加了有关在作业运行时设置超时阈值的信息。有关更多信息,请参阅在 AWS Glue 中添加作业

April 10, 2018

支持 Scala ETL 脚本并基于其他运行状态触发作业

添加了有关使用 Scala 作为 ETL 编程语言的信息。此外,触发器 API 现在还支持在满足任意条件时触发 (除所有条件之外)。此外,还可以基于“失败”或“已停止”的作业运行触发作业 (除“已成功”的作业运行之外)。

January 12, 2018

早期更新

下表描述 2018 年 1 月之前发布的每个 AWS Glue 开发人员指南中的重要变化。

变更 描述 日期
支持 XML 数据源和新的爬网程序配置选项 添加了有关为分区更改分类 XML 数据源和新爬网程序选项的信息。 2017 年 11 月 16 日
新转换、对其他 Amazon RDS 数据库引擎的支持以及开发终端节点增强功能 添加了有关映射和筛选转换、对 Amazon RDS Microsoft SQL Server 和 Amazon RDS Oracle 的支持以及开发终端节点的新功能的信息。 2017 年 9 月 29 日
AWS Glue 初始版本 这是 AWS Glue 开发人员指南 的初始版本。 2017 年 8 月 14 日