AWS Glue 的文档历史记录 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS Glue 的文档历史记录

更新-历史记录-更改 更新-历史记录-描述 更新-历史记录-日期

Support 在搜索 Amazon S3 数据存储时搜索数据集中的文件示例

添加了有关在搜索 Amazon S3 时如何抓取文件示例的信息。有关更多信息,请参阅爬网程序属性

2021 年 5 月 10 日

Support AWS Glue 优化的拼花编写器

添加了有关使用适用于 DynamicFrames 的 AWS Glue 优化拼花编写器创建或更新表的信息parquet分类. 有关更多信息,请参阅 。在数据目录中通过 AWS Glue ETL 作业创建表、更新架构和添加新分区AWS Glue 中 ETL 输入和输出的格式选项

2021 年 5 月 4 日

Support Kafka 客户端身份验证密码

添加了有关 AWS Glue 中流式处理 ETL 作业如何通过 Apache Kafka 流生成器支持 SSL 客户端证书身份验证的信息。现在,您可以在定义到 Apache Kafka 集群的 AWS Glue 连接时提供自定义证书,AWS Glue 在对其进行身份验证时将使用该连接。有关更多信息,请参阅 。AWS Glue Connection 属性连接 API

2021 年 4 月 28 日

Support 在流式 ETL 作业中使用来自 Amazon Kinesis Data Streams 的其他账户中的数据

添加了有关创建流式 ETL 作业以使用其他账户中的 Amazon Kinesis Data Streams 中的数据的信息。有关更多信息,请参阅 。在 AWS Glue 中添加流式处理 ETL 作业

2021 年 3 月 30 日

Support 从蓝图创建工作流(公共预览版)

(公共预览版)添加了有关在蓝图中对常用提取、转换和加载 (ETL) 用例进行编码以及在蓝图中创建工作流程的信息。使数据分析师能够轻松创建和运行复杂的 ETL 流程。有关更多信息,请参阅 。使用 AWS Glue 中的蓝图和工作流程执行复杂的 ETL 活动

2021 年 3 月 22 日

Support AWS Glue 机器学习转换的列重要性指标

添加了有关使用 AWS Glue 机器学习转换时查看列重要性指标的信息。有关更多信息,请参阅 。在 AWS Glue 控制台上使用 Machine Learning 转换

2021 年 2 月 5 日

Support 在 Glue 2.0 版中运行流式 ETL 作业

添加了有关支持在 Glue 2.0 版中运行流式 ETL 作业的信息。有关更多信息,请参阅 。在 AWS Glue 中添加流式处理 ETL 作业

2020 年 12 月 18 日

Support 具有限制执行的工作负载分区

添加了有关启用工作负载分区以配置数据集大小上限或 ETL 作业运行时处理的文件数的上限的信息。有关更多信息,请参阅 。具有限制执行的工作负载分区

2020 年 11 月 23 日

Support 增强的分区管理

添加了有关如何使用新 API 向现有表添加或删除分区索引的信息。有关更多信息,请参阅 。使用分区索引

2020 年 11 月 23 日

Support AWS Glue Schema Registry

添加了有关使用 AWS Glue 架构注册表集中发现、控制和演变模式的信息。有关更多信息,请参阅 。AWS Glue 架构注册表

2020 年 11 月 19 日

Support 流式 ETL 作业中的 Grok 输入格式

添加了有关将 Grok 模式应用于流源(如日志文件)的信息。有关更多信息,请参阅 。将 Grok 模式应用于流源

2020 年 11 月 17 日

Support 在 AWS Glue 控制台上向工作流添加标签

添加了有关在使用 AWS Glue 控制台创建工作流时添加标签的信息。有关更多信息,请参阅 。使用 AWS Glue 控制台创建和构建出工作流程

2020 年 10 月 27 日

Support 增量爬虫运行

添加了有关增量爬网程序运行支持的信息,这些爬网程序仅爬网自上次运行以来添加的 Amazon S3 文件夹。有关更多信息,请参阅 。增量爬网

2020 年 10 月 21 日

Support 流式 ETL 数据源的模式检测。Support Avro 流 ETL 数据源和自我管理的 Kafka

AWS Glue 中的流式处理提取、转换和加载 (ETL) 作业现在可自动检测传入记录的模式,并根据每条记录处理架构更改。现在支持自我管理的 Kafka 数据源。流式 ETL 作业现在支持数据源中的 Avro 格式。有关更多信息,请参阅 。AWS Glue 中的流式处理 ETL定义流式处理 ETL 作业的作业属性, 和Avro 流媒体源的注释和限制

2020 年 10 月 7 日

Support 搜索 MongoDB 和文档数据库数据源

添加了有关网络爬取 MongoDB 和 Amazon DocumentDB(与 MongoDB 兼容)数据源的支持的信息。有关更多信息,请参阅 。定义爬网程序

2020 年 10 月 5 日

Support FIPS 合规性

添加了有关 FIPS 终端节点的信息,用于在使用 AWS Glue 访问数据时需要经过 FIPS 140-2 验证的加密模块的客户。有关更多信息,请参阅 。FIPS 合规性

2020 年 9 月 23 日

AWS Glue Studio 提供了一个易于使用的可视界面,用于创建和监控作业

现在,您可以使用简单的基于图形的界面来编写移动和转换数据的任务,并在 AWS Glue 上运行这些任务。然后,您可以使用 AWS Glue Studio 中的作业运行仪表板监控 ETL 执行情况,并确保您的任务按预期运行。有关更多信息,请参阅 。AWS Glue 工作室用户指南

2020 年 9 月 23 日

Support 创建表索引以提高查询性能

添加了有关创建表索引以允许您从表中检索分区子集的信息。有关更多信息,请参阅 。使用分区索引

2020 年 9 月 9 日

Support 在 AWS Glue 2.0 版中运行 Apache Spark ETL 作业时缩短启动时间。

添加了有关支持 AWS Glue 2.0 版的信息,该版本提供了用于运行 Apache Spark ETL 作业的升级基础设施,同时缩短启动时间、更改日志记录以及支持在作业级别指定其他 Python 模块。有关更多信息,请参阅 。AWS Glue 发行说明运行 Spark ETL 作业,缩短启动时间

2020 年 8 月 10 日

Support 限制并发工作流运行次数。

添加了有关如何限制特定工作流程的并发工作流程运行数的信息。有关更多信息,请参阅 。使用 AWS Glue 控制台创建和构建出工作流程

2020 年 8 月 10 日

Support 使用 VPC 终端节点搜索 Amazon S3 数据存储

添加了有关将 Amazon S3 数据存储配置为仅由 Amazon Virtual Private Cloud (Amazon VPC) 访问的信息,以出于安全、审核或控制目的。有关更多信息,请参阅 。使用 VPC 终端节点搜索 Amazon S3 数据存储

2020 年 8 月 7 日

Support 恢复工作流运行

添加了有关如何恢复由于一个或多个节点(作业或爬网程序)未成功完成而仅部分完成的工作流运行的信息。有关更多信息,请参阅 。修复和恢复工作流程运行

2020 年 7 月 27 日

Support 在 AWS Glue 中的 Kafka 连接中启用私有 CA 证书。

添加了有关支持在 AWS Glue 中为 Kafka 连接启用私有 CA 证书的新连接选项的信息。有关更多信息,请参阅 。AWS Glue 中 ETL 的连接类型和选项AWS Glue 使用的特殊参数

2020 年 7 月 20 日

Support 读取其他帐户中的 DynamoDB 数据

添加了有关 AWS Glue 支持从其他 AWS 账户的 DynamoDB 表读取数据的信息有关详细信息,请参阅从另一个帐户中的 DynamoDB 数据读取

2020 年 7 月 17 日

Support AWS Glue 1.0 版或更高版本中的 DynamoDB 写入器连接

添加了有关支持 DynamoDB 编写器的信息,以及 DynamoDB 用于读取或写入的新连接选项或更新的连接选项。有关更多信息,请参阅 AWS Glue ETL 的连接类型和选项

2020 年 7 月 17 日

Support 资源链接和使用 AWS Glue 和 Lake Formation 成的跨账户访问控制

添加了有关称为资源链接的新数据目录对象的内容,以及如何使用 AWS Glue 和 AWS Lake Formation 成管理跨账户共享数据目录资源的内容。有关更多信息,请参阅 。授予跨账户访问权限表资源链接

2020 年 7 月 7 日

在对 DynamoDB 数据存储进行爬网时,支持对记录进行采样

添加了有关在对 DynamoDB 数据存储进行爬网时可配置的新属性的信息。有关更多信息,请参阅爬网程序属性

2020 年 6 月 12 日

支持停止工作流程运行。

添加了有关如何停止特定工作流程的工作流程运行的信息。有关更多信息,请参阅停止工作流程运行

2020 年 5 月 14 日

支持 Spark 流式处理 ETL 作业

增加了有关使用流式处理数据源创建提取、转换和加载 (ETL) 作业的信息。有关更多信息,请参阅 。在 AWS Glue 中添加流式处理 ETL 作业

2020 年 4 月 27 日

支持在运行 ETL 作业后在数据目录中创建表、更新架构和添加新分区

添加了有关如何启用创建表、更新架构和添加新分区以在数据目录中查看 ETL 作业结果的信息。有关更多信息,请参阅在数据目录中通过 AWS Glue ETL 作业创建表、更新架构和添加新分区

2020 年 4 月 2 日

Support 在 AWS Glue 中将 Apache Avro 数据格式的版本指定为 ETL 输入和输出。

添加了有关在 AWS Glue 中将 Apache Avro 数据格式的版本指定为 ETL 输入和输出的信息。默认版本 1.7。您可以使用 version 格式选项指定 Avro 版本 1.8 以启用逻辑读取/写入。有关更多信息,请参阅 AWS Glue 中 ETL 输入和输出的格式选项

2020 年 3 月 31 日

Support 经 EMRFS S3 优化的提交程序,用于将 Parquet 数据写入 Amazon S3。

添加了有关如何设置新标志以启用经 EMRFR S3 优化的提交程序在创建或更新 AWS Glue 作业时将镶木地板数据写入 Amazon S3 的信息。有关更多信息,请参阅 AWS Glue 使用的特殊参数

2020 年 3 月 30 日

支持将机器学习转换作为由 AWS 资源标签管理的资源

添加了有关使用 AWS 资源标签管理和控制对 AWS Glue 中的机器学习转换的访问的信息。您可以在 AWS AWS Glue 中将 AWS 资源标签分配给作业、触发器、终端节点、爬网程序和机器学习转换。有关更多信息,请参阅 AWS Glue 中的 AWS 标签

2020 年 3 月 2 日

对于不可覆盖的作业参数的支持

添加了有关对于特殊作业参数的支持的信息,您无法在触发器中或运行作业时覆盖这些参数。有关更多信息,请参阅 。在 AWS Glue 中添加作业

2020 年 2 月 12 日

Support 新的转换以在 Amazon S3 中使用数据集

添加了有关新转换(合并、清除和过渡)和 Amazon S3 存储类排除的信息,以便 Apache Spark 应用程序在 Amazon S3 中使用数据集。有关对适用于 Python 的这些转换的这些转换的更多信息,请参阅mergeDynamicFrame在 Amazon S3 中使用数据集。对于 Scala,请参阅 mergeDynamicFramesAWS Glue Scala GlueContext API

2020 年 1 月 16 日

Support 使用 ETL 作业中的新分区信息更新数据目录

添加了有关如何对提取、转换和加载 (ETL) 脚本进行编码以使用新的分区信息更新 AWS Glue 数据目录的信息。使用此功能,您不再需要在作业完成后重新运行爬网程序来查看新分区。有关更多信息,请参阅 。使用新分区更新数据目录

2020 年 1 月 15 日

新教程:使用 SageMaker 笔记本电脑

添加了一个教程,该教程演示如何使用 Amazon SageMaker 笔记本来帮助开发 ETL 和机器学习脚本。请参阅教程:将 Amazon SageMaker 笔记本与您的开发终端节点结合使用

2020 年 1 月 3 日

Support 从 MongoDB 和 Amazon DocumentDB 中读取数据的支持(与 MongoDB 兼容)

添加了有关用于读写 MongoDB 和 Amazon DocumentDB(具有 MongoDB 兼容性)的新连接类型和连接选项的信息。有关更多信息,请参阅 AWS Glue ETL 的连接类型和选项

2019 年 12 月 17 日

各种更正和说明

全文中添加了更正和说明。从“已知问题”一章中删除了条目。添加了指示 AWS Glue 仅在指定数据目录加密设置和创建安全配置时支持对称客户主密钥 (CMK) 的警告。添加了指示 AWS Glue 不支持写入 Amazon DynamoDB。

2019 年 12 月 9 日

支持自定义 JDBC 驱动程序

添加了有关使用 AWS Glue 本身不支持的 JDBC 驱动程序(例如 MySQL 版本 8 和 Oracle 数据库版本 18)连接到数据源和目标的信息。有关更多信息,请参阅 JDBC 连接类型值

2019 年 11 月 25 日

Support 将 SageMaker 笔记本连接到不同的开发终端节点

添加了有关您如何将 SageMaker 笔记本连接到不同的开发终端节点的信息。进行了更新以描述用于切换到新的开发终端节点的新控制台操作以及新的 SageMaker IAM 策略。有关更多信息,请参阅在 AWS Glue 控制台上使用笔记本为 Amazon SageMaker 笔记本创建 IAM 策略

2019 年 11 月 21 日

机器学习转换中 Support AWS Glue 版本

添加了有关在机器学习转换中定义 AWS Glue 版本的信息,以指示机器学习转换与哪个版本的兼容。有关更多信息,请参阅在 AWS Glue 控制台上使用机器学习转换

2019 年 11 月 21 日

支持倒回作业书签

添加了有关将您的作业书签倒回之前的任何作业运行,从而使后续作业运行只再处理已做上标签的作业的信息。描述了允许您在两个书签之间运行作业的 job-bookmark-pause 选项的两个新子选项。有关更多信息,请参阅使用作业书签来跟踪已处理的数据由 AWS Glue 使用的特殊参数

2019 年 10 月 22 日

支持自定义 JDBC 证书以连接到数据存储

添加了有关 AWS Glue 支持自定义 JDBC 证书以实现与 AWS Glue 数据源或目标的 SSL 连接的信息。有关更多信息,请参阅使用 AWS Glue 控制台上的连接

2019 年 10 月 10 日

支持 Python Wheel

添加了有关 AWS Glue 支持 wheel 文件(以及 egg 文件)作为 Python shell 作业的依赖项的信息。有关更多信息,请参阅提供您自己的 Python 库

2019 年 9 月 26 日

Support AWS Glue 中的开发终端节点的版本控制

添加了有关在中定义Glue version在开发终端节点中。Glue version决定 AWS Glue 支持的 Apache Spark 和 Python 版本。有关更多信息,请参阅添加开发终端节点

2019 年 9 月 19 日

Support 使用 Spark UI 监控 AWS Glue

添加了有关使用 Apache Spark UI 监控和调试在 AWS Glue 作业系统上运行的 AWS Glue ETL 作业以及在 AWS Glue 开发终端节点上运行的 Spark 应用程序的信息。有关更多信息,请参阅使用 Spark UI 监控 AWS Glue

2019 年 9 月 19 日

增强了对使用公共 AWS Glue ETL 库进行本地 ETL 脚本开发的支持

更新了 AWS Glue ETL 库内容以反映现在支持 AWS Glue 版本 1.0。有关更多信息,请参阅使用 AWS Glue ETL 库在本地开发和测试 ETL 脚本

2019 年 9 月 18 日

Support 在运行作业时排除 Amazon S3 存储类

添加了有关在运行从 Amazon S3 中读取文件或分区的 AWS Glue ETL 作业时排除 Amazon S3 存储类的信息。有关更多信息,请参阅 。排除 Amazon S3 存储类

2019 年 8 月 29 日

Support 使用公共 AWS Glue ETL 库进行本地 ETL 脚本开发

添加了有关如何在本地开发和测试 Python 和 Scala ETL 脚本,而无需网络连接的信息。有关更多信息,请参阅使用 AWS Glue ETL 库在本地开发和测试 ETL 脚本

2019 年 8 月 28 日

已知问题

添加了有关 AWS Glue 中已知问题的信息。有关更多信息,请参阅 。AWS Glue 的已知问题

2019 年 8 月 28 日

AWS Glue 中 Support 机器学习转换

添加了有关 AWS Glue 提供的用以创建自定义转换的机器学习功能的信息。您可以在创建作业时创建这些转换。有关更多信息,请参阅 。AWS Glue 中的 Machine Learning 转换

2019 年 8 月 8 日

Support 共享 Amazon Virtual Private Cloud

添加了有关 AWS Glue 对共享 Amazon Virtual Private Cloud 的支持的信息。有关更多信息,请参阅共享的 Amazon VPC

2019 年 8 月 6 日

Support AWS Glue 中的版本控制

添加了有关在作业属性中定义 Glue version 的信息。AWS Glue 版本决定 AWS Glue 支持的 Apache Spark 和 Python 版本。有关更多信息,请参阅 。在 AWS Glue 中添加作业

2019 年 7 月 24 日

支持开发终端节点的其他配置选项

针对具有内存密集型工作负载的开发终端节点,添加了有关配置选项的信息。您现在可以从两个新配置中进行选择,这两个新配置可为每个执行程序提供更多内存。有关更多信息,请参阅 。在 AWS Glue 控制台上使用开发终端节点

2019 年 7 月 24 日

支持使用工作流程执行提取、转换和加载 (ETL) 活动

添加了有关使用称为工作流程的新构造的信息,以设计可由 AWS Glue 作为单个实体运行和跟踪的复杂的多作业提取、转换和加载 (ETL) 活动。有关更多信息,请参阅使用 AWS Glue 中的工作流程执行复杂的 ETL 活动

2019 年 6 月 20 日

支持 Python 外壳作业中的 Python 3.6

增加了在 Python 外壳作业中对 Python 3.6 的支持的相关信息。您可以指定 Python 2.7 或 Python 3.6 作为作业属性。有关更多信息,请参阅 。添加 Python Shell 作业

2019 年 6 月 5 日

支持 Virtual Private Cloud (VPC) 终端节点

添加了有关在 VPC 中通过接口终端节点直接连接到 AWS Glue 的信息。当您使用 VPC 接口终端节点时,您的 VPC 与 AWS Glue 之间的通信完全在 AWS 网络内安全进行。有关更多信息,请参阅将 AWS Glue 与 VPC 终端节点结合使用

2019 年 6 月 4 日

Support AWS Glue 作业的实时的连续日志记录。

添加了有关在 CloudWatch 中启用和查看实时 Apache Spark 作业日志的相关信息,包括驱动程序日志、各个执行程序日志以及 Spark 作业进度栏。有关更多信息,请参阅 AWS Glue 作业的连续日志记录

2019 年 5 月 28 日

Support 将现有数据目录表作为爬网程序源

添加了有关将现有数据目录表的列表指定为爬网程序源的信息。然后,当新数据变为可用时,爬网程序可以检测对表架构的更改、更新表定义并注册新分区。有关更多信息,请参阅爬网程序属性

2019 年 5 月 10 日

对于内存密集型任务支持额外的配置选项

针对具有内存密集型工作负载的 Apache Spark 任务,添加了有关配置选项的信息。您现在可以从两个新配置中进行选择,这两个新配置可为每个执行程序提供更多内存。有关更多信息,请参阅 。在 AWS Glue 中添加作业

2019 年 4 月 5 日

支持 CSV 自定义分类器

添加了有关使用自定义 CSV 分类器来推断各种类型的 CSV 数据的架构的信息。有关更多信息,请参阅编写自定义分类器

2019 年 3 月 26 日

支持 AWS 资源标签

添加了有关使用 AWS 资源标签来帮助您管理和控制对 AWS Glue 资源的访问的信息。您可以在 AWS AWS Glue 中将 AWS 资源标签分配给作业、触发器、终端节点和爬网程序。有关更多信息,请参阅 AWS Glue 中的 AWS 标签

2019 年 3 月 20 日

Support Spark SQL 作业的数据目录

添加了有关配置您的 AWS Glue 作业和开发终端节点以使用 AWS Glue 数据目录作为外部 Apache Hive 元存储的信息。这允许作业和开发终端节点直接对存储在 AWS Glue 数据目录中的表运行 Apache Spark SQL 查询。有关更多信息,请参阅 Spark SQL 作业的 AWS Glue 数据目录支持

2019 年 3 月 14 日

支持 Python shell 作业

添加了有关 Python shell 作业和新字段 Maximum capacity (最大容量) 的信息。有关更多信息,请参阅在 AWS Glue 中添加 Python Shell 作业

2019 年 1 月 18 日

支持数据库和表发生更改时的通知

添加了有关为数据库、表和分区 API 调用的更改生成的事件的信息。您可以在 CloudWatch 事件中配置操作以响应这些事件。有关更多信息,请参阅使用 CloudWatch Events 自动化 AWS Glue

2019 年 1 月 16 日

支持加密连接密码

添加了有关加密连接对象中所用密码的信息。有关更多信息,请参阅加密连接密码

2018 年 12 月 11 日

对于资源级权限和基于资源的策略的支持

添加了有关将资源级权限和基于资源的策略用于 AWS Glue 的信息。有关更多信息,请参阅AWS Glue 中的安全

2018 年 10 月 15 日

对 SageMaker 笔记本的 Support

添加了有关将 SageMaker 笔记本用于 AWS Glue 开发终端节点的信息。有关更多信息,请参阅管理笔记本

2018 年 10 月 5 日

对加密的支持

添加了有关对 AWS Glue 使用加密的信息。有关更多信息,请参阅静态加密传输中加密在 AWS Glue 中设置加密

2018 年 8 月 24 日

Apache Spark 作业指标支持

添加了有关使用 Apache Spark 指标的信息,以便更好地调试和分析 ETL 作业。您可以轻松跟踪运行时指标,例如读取和写入的字节数,驱动程序和执行程序的内存使用率和 CPU 负载,以及来自 AWS Glue 控制台的执行程序之间的数据随机排序。有关更多信息,请参阅使用 CloudWatch 指标监控 AWS Glue作业监控和调试以及在 AWS Glue 控制台上处理作业

2018 年 7 月 13 日

Support 将 DynamoDB 作为数据源

添加了有关网络爬取 DynamoDB 以及将其用作 ETL 作业的数据源的信息。有关更多信息,请参阅使用爬网程序编录表连接参数

2018 年 7 月 10 日

更新以创建笔记本服务器过程

更新了有关如何在与开发终端节点相关联的 Amazon EC2 实例上创建笔记本服务器的信息。有关更多信息,请参阅创建与开发终端节点相关联的笔记本服务器

2018 年 7 月 9 日

现在可通过 RSS 更新

您现在可以订阅 RSS 源来接收有关指南更新的通知AWS Glue 开发人员指南

2018 年 25 月 6 日

支持作业的延迟通知

添加了有关在作业运行时配置延迟阈值的信息。有关更多信息,请参阅 。在 AWS Glue 中添加作业

2018 年 5 月 25 日

配置爬网程序以追加新列

添加了有关爬网程序的新配置选项 MergeNewColumns 的信息。有关更多信息,请参阅配置爬网程序

2018 年 5 月 7 日

支持作业超时

添加了有关在作业运行时设置超时阈值的信息。有关更多信息,请参阅 。在 AWS Glue 中添加作业

2018 年 4 月 10 日

支持 Scala ETL 脚本并基于其他运行状态触发作业

添加了有关使用 Scala 作为 ETL 编程语言的信息。此外,触发器 API 现在还支持在满足任意条件时触发 (除所有条件之外)。此外,还可以基于“失败”或“已停止”的作业运行触发作业 (除“已成功”的作业运行之外)。

2018 年 1 月 12 日

早期更新

下表介绍每一版的中的重大更改。AWS Glue 开发人员指南2018 年 1 月之前。

变更 描述 日期
支持 XML 数据源和新的爬网程序配置选项 添加了有关为分区更改分类 XML 数据源和新爬网程序选项的信息。 2017 年 11 月 16 日
新转换、对其他 Amazon RDS 数据库引擎的支持以及开发终端节点增强功能 添加了有关映射和筛选转换、对 Amazon RDS Microsoft SQL Server 和 Amazon RDS Oracle 的支持以及开发终端节点的新功能的信息。 2017 年 9 月 29 日
AWS Glue 初始版本 这是 AWS Glue 开发人员指南的初始版本。 2017 年 8 月 14 日