本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
AWS Glue 的文档历史记录
变更 | 说明 | 日期 |
---|---|---|
支持在 Glue 版本 2.0 中运行流式处理 ETL 作业 |
添加了有关在 Glue 版本 2.0 中支持运行流式处理 ETL 作业的信息。有关更多信息,请参阅在 AWS Glue 中添加流式处理 ETL 作业。 |
December 18, 2020 |
支持增强型分区管理 |
添加了有关如何使用新的 APIs 在现有表中添加或删除分区索引的信息。有关更多信息,请参阅使用分区索引。 |
November 23, 2020 |
支持使用有界执行进行工作负载分区 |
添加了有关启用工作负载分区以配置数据集大小上限或在 ETL 作业运行上处理的文件数的信息。有关更多信息,请参阅使用有界执行进行工作负载分区。 |
November 23, 2020 |
支持 AWS Glue 架构注册表 |
添加了有关使用 AWS Glue 架构注册表集中发现、控制和扩展架构的信息。有关更多信息,请参阅 架构注册表AWS Glue。 |
November 19, 2020 |
支持流式处理 ETL 作业中的 Grok 输入格式 |
添加了有关将 Grok 模式应用于流式传输源(如日志文件)的信息。有关更多信息,请参阅将 Grok 模式应用于流式传输源。 |
November 17, 2020 |
支持在 AWS Glue 控制台上向工作流程添加标签 |
添加了有关在使用 AWS Glue 控制台创建工作流程时添加标签的信息。有关更多信息,请参阅使用 AWS Glue 控制台创建和构建工作流。 |
October 27, 2020 |
支持增量爬网程序运行 |
添加了有关对增量爬网程序运行的支持的信息,这些运行只爬取自上次运行以来添加的 Amazon S3 文件夹。有关更多信息,请参阅增量爬网。 |
October 21, 2020 |
支持流式处理 ETL 数据源的架构检测。支持 Avro 流式处理 ETL 数据源和自管理 Kafka |
中的流式传输提取、转换和加载 (ETL) 作业现在可以自动检测传入记录的架构并基于记录来处理架构更改。AWS Glue现在支持自行管理的 Kafka 数据源。流式处理 ETL 作业现在支持数据源中的 Avro 格式。有关更多信息,请参阅 中的流式处理 ETLAWS Glue、为流式处理 ETL 作业定义作业属性和 Avro 流式传输源的说明和限制。 |
October 7, 2020 |
支持对 MongoDB 和 DocumentDB 数据源进行爬网 |
添加了有关对 MongoDB 和 Amazon DocumentDB(与 MongoDB 兼容)数据源进行爬网的支持的信息。有关更多信息,请参阅定义爬网程序。 |
October 5, 2020 |
支持 FIPS 合规性 |
添加了有关使用 AWS Glue 访问数据时需要 FIPS 140-2 验证加密模块的客户的 FIPS 终端节点的信息。有关更多信息,请参阅 FIPS 合规性。 |
September 23, 2020 |
AWS Glue Studio 提供了一个易于使用的可视化界面,用于创建和监控作业 |
现在,您可以使用基于图形的简单界面编写用于移动和转换数据并在 AWS Glue 上运行数据的作业。然后,您可以使用 AWS Glue Studio 中的作业运行控制面板来监控 ETL 执行并确保您的作业按预期运行。有关更多信息,请参阅AWS Glue Studio 用户指南。 |
September 23, 2020 |
支持创建表索引以提高查询性能 |
添加了有关创建表索引的信息,以便您能够从表中检索分区的子集。有关更多信息,请参阅使用分区索引。 |
September 9, 2020 |
支持限制并发工作流程运行数。 |
添加了有关如何限制特定工作流程的并发工作流程运行数的信息。有关更多信息,请参阅使用 AWS Glue 控制台创建和构建工作流。 |
August 10, 2020 |
在 AWS Glue 版本 2.0 中运行 Apache Spark ETL 作业时,支持缩短的启动时间。 |
添加了有关对 AWS Glue 版本 2.0 的支持的信息,该版本为运行 Apache Spark ETL 作业提供了升级的基础设施(减少了启动时间)、日志记录中的更改,并支持在作业级别指定其他 Python 模块。有关更多信息,请参阅 AWS Glue 发布说明和运行 Spark ETL 作业并缩短启动时间。 |
August 10, 2020 |
支持使用 VPC 终端节点网络爬取 Amazon S3 数据存储 |
添加了有关将 Amazon S3 数据存储配置为仅由 Amazon Virtual Private Cloud 环境 (Amazon VPC) 进行访问(用于安全、审计或控制目的)的信息。有关更多信息,请参阅使用 VPC 终端节点对 Amazon S3 数据存储进行爬网。 |
August 7, 2020 |
支持恢复工作流程运行 |
添加了有关如何恢复由于一个或多个节点(作业或爬网程序)未成功完成而仅部分完成的工作流程运行的信息。有关更多信息,请参阅修复和恢复工作流程运行。 |
July 27, 2020 |
支持在 AWS Glue 中的 Kafka 连接中启用私有 CA 证书。 |
添加了有关新的连接选项的信息,这些选项支持在 AWS Glue 中为 Kafka 连接启用私有 CA 证书。有关更多信息,请参阅 中的 ETL 的连接类型和选项AWS Glue和 使用的特殊参数。AWS Glue |
July 20, 2020 |
支持读取另一个账户中的 DynamoDB 数据 |
添加了有关 AWS Glue 支持从其他 AWS 账户的 DynamoDB 表读取数据的信息。有关更多信息,请参阅从其他账户中的 DynamoDB 数据读取。 |
July 17, 2020 |
在 DynamoDB 版本 1.0 或更高版本中支持 AWS Glue 写入器连接 |
添加了有关对 DynamoDB 写入器的支持以及供 DynamoDB 读取或写入的新的或更新的连接选项的信息。有关更多信息,请参阅 中的 ETL 的连接类型和选项AWS Glue。 |
July 17, 2020 |
支持资源链接和使用 AWS Glue 和 Lake Formation 的跨账户访问控制 |
添加了有关称为资源链接的新 Data Catalog 对象以及如何管理与 Data Catalog 和 AWS Glue 跨账户共享 AWS Lake Formation 资源的内容。有关更多信息,请参阅授予跨账户访问权限和表资源链接。 |
July 7, 2020 |
在对 DynamoDB 数据存储进行爬网时,支持对记录进行采样 |
添加了有关在对 DynamoDB 数据存储进行爬网时可配置的新属性的信息。有关更多信息,请参阅爬网程序属性。 |
June 12, 2020 |
支持停止工作流程运行。 |
添加了有关如何停止特定工作流程的工作流程运行的信息。有关更多信息,请参阅停止工作流程运行。 |
May 14, 2020 |
支持 Spark 流式处理 ETL 作业 |
增加了有关使用流式处理数据源创建提取、转换和加载 (ETL) 作业的信息。有关更多信息,请参阅在 AWS Glue 中添加流式处理 ETL 作业。 |
April 27, 2020 |
支持在运行 ETL 作业后在数据目录中创建表、更新架构和添加新分区 |
添加了有关如何启用创建表、更新架构和添加新分区以在数据目录中查看 ETL 作业结果的信息。有关更多信息,请参阅在 Data Catalog 中通过 AWS Glue ETL 作业创建表、更新架构和添加新分区。 |
April 2, 2020 |
支持在 AWS Glue 中将 Apache Avro 数据格式的版本指定为 ETL 输入和输出。 |
添加了有关在 AWS Glue 中将 Apache Avro 数据格式的版本指定为 ETL 输入和输出的信息。默认版本 1.7。您可以使用 |
March 31, 2020 |
支持 EMRFS 经 S3 优化的提交程序,用于将 Parquet 数据写入 Amazon S3。 |
添加了有关如何设置新标志以启用经 EMRFR S3 优化的提交程序在创建或更新 AWS Glue 作业时将 Parquet 数据写入 Amazon S3 的信息。有关更多信息,请参阅 AWS Glue 所使用的特殊参数。 |
March 30, 2020 |
支持将机器学习转换作为由 AWS 资源标签管理的资源 |
增加了有关使用 AWS 资源标签管理和控制对 AWS Glue 中的机器学习转换的访问的信息。您可以将 AWS 资源标签分配给 AWS Glue 中的作业、触发器、终端节点、爬网程序和机器学习转换。有关更多信息,请参阅 中的 AWS 标签AWS Glue。 |
March 2, 2020 |
对于不可覆盖的作业参数的支持 |
添加了有关对于特殊作业参数的支持的信息,您无法在触发器中或运行作业时覆盖这些参数。有关更多信息,请参阅在 AWS Glue 中添加作业。 |
February 12, 2020 |
支持新的转换以在 Amazon S3 中使用数据集 |
添加了有关新转换(合并、清除和过渡)和 Amazon S3 存储类排除的信息,以便 Apache Spark 应用程序在 Amazon S3 中使用数据集。有关支持适用于 Python 的这些转换的更多信息,请参阅mergeDynamicFrame和在 Amazon S3 中使用数据集。对于 Scala,请参阅 mergeDynamicFrames 和 AWS Glue Scala GlueContext APIs。 |
January 16, 2020 |
支持使用 ETL 作业中的新分区信息更新 Data Catalog |
添加了有关如何对提取、转换和加载 (ETL) 脚本进行编码以使用新的分区信息更新 AWS Glue 数据目录 的信息。使用此功能,您不再需要在作业完成后重新运行爬网程序来查看新分区。有关更多信息,请参阅使用新分区更新 Data Catalog。 |
January 15, 2020 |
新教程:使用 SageMaker 笔记本 |
添加了演示如何使用 Amazon SageMaker 笔记本帮助开发 ETL 和机器学习脚本的教程。请参阅教程: 将 Amazon SageMaker 笔记本与您的开发终端节点结合使用。 |
January 3, 2020 |
支持从 MongoDB 和 Amazon DocumentDB 读取(具有 MongoDB 兼容性) |
添加了有关用于从 MongoDB 和 Amazon DocumentDB(具有 MongoDB 兼容性)读取和写入的新连接类型和连接选项的信息。有关更多信息,请参阅 中的 ETL 的连接类型和选项AWS Glue。 |
December 17, 2019 |
各种更正和说明 |
全文中添加了更正和说明。从“已知问题”一章中删除了条目。添加了指示 AWS Glue 仅在指定数据目录加密设置和创建安全配置时支持对称客户主密钥 (CMK) 的警告。添加了指示 AWS Glue 不支持写入 Amazon DynamoDB 的注释。 |
December 9, 2019 |
支持自定义 JDBC 驱动程序 |
添加了有关使用 AWS Glue 本身不支持的 JDBC 驱动程序(如 MySQL 版本 8 和 Oracle 数据库版本 18)连接到数据源和目标的信息。有关更多信息,请参阅 JDBC connectionType 值。 |
November 25, 2019 |
机器学习转换中对 AWS Glue 版本的支持 |
添加了有关在机器学习转换中定义 AWS Glue 版本的信息,以指示机器学习转换与哪个版本的 AWS Glue 兼容。有关更多信息,请参阅在 AWS Glue 控制台上使用机器学习转换。 |
November 21, 2019 |
支持将 SageMaker 笔记本连接到不同的开发终端节点 |
添加了有关您如何将 SageMaker 笔记本连接到不同的开发终端节点的信息。进行了更新以描述用于切换到新开发终端节点的新控制台操作,以及新的 SageMaker IAM 策略。有关更多信息,请参阅在 AWS Glue 控制台上使用笔记本和为 IAM 笔记本创建 Amazon SageMaker 策略。 |
November 21, 2019 |
支持倒回作业书签 |
添加了有关将您的作业书签倒回之前的任何作业运行,从而使后续作业运行只再处理已做上标签的作业的信息。描述了允许您在两个书签之间运行作业的 |
October 22, 2019 |
支持自定义 JDBC 证书以连接到数据存储 |
添加了有关 AWS Glue 支持自定义 JDBC 证书以实现与 AWS Glue 数据源或目标的 SSL 连接的信息。有关更多信息,请参阅在 AWS Glue 控制台上使用连接。 |
October 10, 2019 |
支持 Python Wheel |
添加了有关 AWS Glue 支持 wheel 文件(以及 egg 文件)作为 Python shell 作业的依赖项的信息。有关更多信息,请参阅提供您自己的 Python 库。 |
September 26, 2019 |
支持使用 Spark UI 监控 AWS Glue |
添加了有关使用 Apache Spark UI 监控和调试在 AWS Glue 作业系统上运行的 AWS Glue ETL 作业以及在 AWS Glue 开发终端节点上运行的 Spark 应用程序的信息。有关更多信息,请参阅使用 Spark UI 监控 AWS Glue。 |
September 19, 2019 |
支持 AWS Glue 中的开发终端节点的版本控制 |
添加了有关在开发终端节点中定义 |
September 19, 2019 |
增强了对使用公共 AWS Glue ETL 库进行本地 ETL 脚本开发的支持 |
更新了 AWS Glue ETL 库内容以反映现在支持 AWS Glue 版本 1.0。有关更多信息,请参阅使用 AWS Glue ETL 库在本地开发和测试 ETL 脚本。 |
September 18, 2019 |
支持在运行作业时排除 Amazon S3 存储类 |
添加了有关在运行从 Amazon S3 中读取文件或分区的 AWS Glue ETL 作业时排除 Amazon S3 存储类的信息。有关更多信息,请参阅排除 Amazon S3 存储类。 |
August 29, 2019 |
支持使用公共 AWS Glue ETL 库进行本地 ETL 脚本开发 |
添加了有关如何在本地开发和测试 Python 和 Scala ETL 脚本,而无需网络连接的信息。有关更多信息,请参阅使用 AWS Glue ETL 库在本地开发和测试 ETL 脚本。 |
August 28, 2019 |
已知问题 |
添加了有关 AWS Glue 中已知问题的信息。有关更多信息,请参阅 AWS Glue 的已知问题。 |
August 28, 2019 |
支持 AWS Glue 中的机器学习转换 |
添加了有关 AWS Glue 提供的用以创建自定义转换的机器学习功能的信息。您可以在创建作业时创建这些转换。有关更多信息,请参阅 AWS Glue 中的机器学习转换。 |
August 8, 2019 |
支持共享的 Amazon Virtual Private Cloud |
添加了有关共享 Amazon Virtual Private Cloud 的 AWS Glue 支持的信息。有关更多信息,请参阅共享的 Amazon VPCs。 |
August 6, 2019 |
支持开发终端节点的其他配置选项 |
针对具有内存密集型工作负载的开发终端节点,添加了有关配置选项的信息。您现在可以从两个新配置中进行选择,这两个新配置可为每个执行程序提供更多内存。有关更多信息,请参阅在 AWS Glue 控制台上使用开发终端节点。 |
July 24, 2019 |
支持 AWS Glue 中的版本控制 |
添加了有关在作业属性中定义 |
July 24, 2019 |
支持使用工作流程执行提取、转换和加载 (ETL) 活动 |
添加了有关使用称为工作流程的新构造的信息,以设计可由 AWS Glue 作为单个实体执行和跟踪的复杂的多作业提取、转换和加载 (ETL) 活动。有关更多信息,请参阅使用 AWS Glue 中的工作流程执行复杂的 ETL 活动。 |
June 20, 2019 |
支持 Python 外壳作业中的 Python 3.6 |
增加了在 Python 外壳作业中对 Python 3.6 的支持的相关信息。您可以指定 Python 2.7 或 Python 3.6 作为作业属性。有关更多信息,请参阅在 AWS Glue 中添加 Python Shell 作业。 |
June 5, 2019 |
支持 Virtual Private Cloud (VPC) 终端节点 |
添加了有关在 VPC 中通过接口终端节点直接连接到 AWS Glue 的信息。当您使用 VPC 接口终端节点时,VPC 与 AWS Glue 之间的通信完全在 AWS 网络内安全进行。有关更多信息,请参阅将 AWS Glue 与 VPC 终端节点结合使用。 |
June 4, 2019 |
支持对 AWS Glue 作业进行实时的连续日志记录。 |
增加了在 CloudWatch 中启用和查看实时 Apache Spark 作业日志的相关信息,包括驱动程序日志、各个执行程序日志以及 Spark 作业进度栏。有关更多信息,请参阅 AWS Glue 作业的连续日志记录。 |
May 28, 2019 |
支持将现有 Data Catalog 表作为爬网程序源 |
添加了有关将现有 Data Catalog 表的列表指定为爬网程序源的信息。然后,当新数据变为可用时,爬网程序可以检测对表架构的更改、更新表定义并注册新分区。有关更多信息,请参阅爬网程序属性。 |
May 10, 2019 |
对于内存密集型任务支持额外的配置选项 |
针对具有内存密集型工作负载的 Apache Spark 任务,添加了有关配置选项的信息。您现在可以从两个新配置中进行选择,这两个新配置可为每个执行程序提供更多内存。有关更多信息,请参阅在 AWS Glue 中添加作业。 |
April 5, 2019 |
支持 CSV 自定义分类器 |
添加了有关使用自定义 CSV 分类器来推断各种类型的 CSV 数据的架构的信息。有关更多信息,请参阅编写自定义分类器。 |
March 26, 2019 |
支持 AWS 资源标签 |
添加了有关使用 AWS 资源标签来帮助您管理和控制对 AWS Glue 资源的访问的信息。您可以在 AWS Glue 中将 AWS 资源标签分配给作业、触发器、终端节点和爬网程序。有关更多信息,请参阅 中的 AWS 标签AWS Glue。 |
March 20, 2019 |
支持 Data Catalog 用于 Spark SQL 作业 |
添加了有关配置 AWS Glue 作业和开发终端节点以使用 AWS Glue 数据目录 作为外部 Apache Hive 元存储的信息。这允许作业和开发终端节点直接对存储在 AWS Glue 数据目录 中的表运行 Apache Spark SQL 查询。有关更多信息,请参阅 AWS Glue 数据目录Spark SQL 作业支持。 |
March 14, 2019 |
支持 Python shell 作业 |
添加了有关 Python shell 作业和新字段 Maximum capacity (最大容量) 的信息。有关更多信息,请参阅在 AWS Glue 中添加 Python Shell 作业。 |
January 18, 2019 |
支持数据库和表发生更改时的通知 |
添加了有关为数据库、表和分区 API 调用的更改生成的事件的信息。您可以在 CloudWatch Events 中配置操作以响应这些事件。有关更多信息,请参阅使用 AWS Glue 自动执行 CloudWatch Events。 |
January 16, 2019 |
支持加密连接密码 |
添加了有关加密连接对象中所用密码的信息。有关更多信息,请参阅加密连接密码。 |
December 11, 2018 |
对于资源级权限和基于资源的策略的支持 |
添加了有关将资源级权限和基于资源的策略用于 AWS Glue 的信息。有关更多信息,请参阅 AWS Glue 中的安全性中的主题。 |
October 15, 2018 |
对 SageMaker 笔记本的支持 |
添加了有关将 SageMaker 笔记本用于 AWS Glue 开发终端节点的信息。有关更多信息,请参阅管理笔记本。 |
October 5, 2018 |
对加密的支持 |
添加了有关对 AWS Glue 使用加密的信息。有关更多信息,请参阅静态加密、传输中加密和在 AWS Glue 中设置加密。 |
August 24, 2018 |
Apache Spark 作业指标支持 |
添加了有关使用 Apache Spark 指标的信息,以便更好地调试和分析 ETL 作业。您可以轻松跟踪运行时指标,例如读取和写入的字节数、驱动程序和执行程序的内存使用率和 CPU 负载,以及来自 AWS Glue 控制台的执行程序之间的数据随机排序。有关更多信息,请参阅使用 AWS Glue 指标监控 CloudWatch、作业监控和调试以及在 控制台上处理作业AWS Glue。 |
July 13, 2018 |
支持将 DynamoDB 作为数据源 |
添加了有关网络爬取 DynamoDB 以及将其用作 ETL 作业的数据源的信息。有关更多信息,请参阅使用爬网程序编录表和连接参数。 |
July 10, 2018 |
更新以创建笔记本服务器过程 |
更新了有关如何在与开发终端节点相关联的 Amazon EC2 实例上创建笔记本服务器的信息。有关更多信息,请参阅创建与开发终端节点相关联的笔记本服务器。 |
July 9, 2018 |
现在可通过 RSS 更新 |
您现在可以订阅 RSS 源来接收有关 AWS Glue 开发人员指南指南更新的通知。 |
June 25, 2018 |
支持作业的延迟通知 |
添加了有关在作业运行时配置延迟阈值的信息。有关更多信息,请参阅在 AWS Glue 中添加作业。 |
May 25, 2018 |
配置爬网程序以追加新列 |
增加了有关爬网程序的新配置选项 MergeNewColumns 的信息。 有关更多信息,请参阅配置爬网程序。 |
May 7, 2018 |
支持作业超时 |
添加了有关在作业运行时设置超时阈值的信息。有关更多信息,请参阅在 AWS Glue 中添加作业。 |
April 10, 2018 |
支持 Scala ETL 脚本并基于其他运行状态触发作业 |
添加了有关使用 Scala 作为 ETL 编程语言的信息。此外,触发器 API 现在还支持在满足任意条件时触发 (除所有条件之外)。此外,还可以基于“失败”或“已停止”的作业运行触发作业 (除“已成功”的作业运行之外)。 |
January 12, 2018 |
早期更新
下表描述 2018 年 1 月之前发布的每个 AWS Glue 开发人员指南中的重要变化。
变更 | 描述 | 日期 |
---|---|---|
支持 XML 数据源和新的爬网程序配置选项 | 添加了有关为分区更改分类 XML 数据源和新爬网程序选项的信息。 | 2017 年 11 月 16 日 |
新转换、对其他 Amazon RDS 数据库引擎的支持以及开发终端节点增强功能 | 添加了有关映射和筛选转换、对 Amazon RDS Microsoft SQL Server 和 Amazon RDS Oracle 的支持以及开发终端节点的新功能的信息。 | 2017 年 9 月 29 日 |
AWS Glue 初始版本 | 这是 AWS Glue 开发人员指南 的初始版本。 | 2017 年 8 月 14 日 |