Amazon Glue 的文档历史记录 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

Amazon Glue 的文档历史记录

变更说明日期

支持 Amazon Glue 任务的弹性伸缩 (GA)

添加了 Amazon Glue 版本 3.0 中的任务使用弹性伸缩的信息,从而动态扩缩计算资源。有关更多信息,请参阅为 Amazon Glue 使用弹性伸缩

2022 年 4 月 14 日

更新了有关 Amazon Glue 开发和测试 Amazon Glue 任务脚本的文档

重组并添加了有关 Amazon Glue 的可用开发和测试方法的信息,包括使用 Docker 进行开发的说明。有关更多信息,请参阅开发和测试 Amazon Glue 任务脚本

2022 年 3 月 14 日

将协议缓冲区作为受支持的数据格式添加到 Amazon Glue 架构注册表

添加了有关 Protobuf 作为受支持的数据格式(除 AVRO 和 JSON 之外)的信息。有关更多信息,请参阅 Amazon Glue 架构注册表

2022 年 2 月 25 日

支持爬取 Delta Lake 表

增加了有关使用 Amazon Glue 爬取 Delta Lake 表的信息。有关更多信息,请参阅如何为 Delta Lake 数据存储指定配置选项

2022 年 2 月 24 日

对 Amazon Glue 任务洞察的支持

已添加关于使用 Amazon Glue 任务洞察的信息,以简化任务调试及对 Amazon Glue 任务进行优化。有关更多信息,请参阅通过 Amazon Glue 任务洞察进行监控

2022 年 2 月 8 日

使用 VPC 终端节点支持网络爬取 Amazon S3 支持的数据目录表

除了 Amazon S3 数据商店之外,出于安全、审计或控制目的,您可以配置您的 Amazon S3 支持的数据目录表,使之仅由 Amazon Virtual Private Cloud 环境 (Amazon VPC) 访问。有关更多信息,请参阅使用 VPC 终端节点网络爬取 Amazon S3 数据存储或 Amazon S3 支持的数据目录表

2022 年 2 月 3 日

支持 Lake Formation 受管表

添加了关于 Amazon Glue 对 Lake Formation 受管表的支持的信息,这些表支持 ACID 事务、自动数据压缩和时间旅行查询。有关更多信息,请参阅 Amazon Glue APIAmazon Lake Formation 开发人员指南

2021 年 11 月 30 日

添加了适用于交互式会话和笔记本的新 Amazon 托管式策略

适用于 IAM 的新托管式策略为将 Amazon Glue 与交互式会话和笔记本配合使用提供了增强的安全性。有关更多信息,请参阅 适用于 Amazon Glue 的 Amazon 托管式(预定义)策略

2021 年 11 月 30 日

适用于公有预览版功能的文档

描述了 Amazon Glue 和 Amazon Glue Studio 的预览版中提供的功能。有关更多信息,请参阅 Amazon Glue 和 Amazon Glue Studio 预览版功能

2021 年 11 月 23 日

串流任务现在支持 Glue 架构注册表

您可以创建能够访问属于 Glue 架构注册表的表的串流任务。有关更多信息,请参阅 Amazon Glue 结构注册表在 Amazon Glue 中添加串流 ETL 任务

2021 年 11 月 15 日

支持新的机器学习功能

添加了关于查找匹配项机器学习转换(包括递增匹配项和匹配项评分)的新功能的信息。有关更多信息,请参阅 查找递增匹配项使用匹配项置信度分数估算匹配项质量

2021 年 10 月 31 日

支持使用 Amazon S3 事件通知加速网络爬取

添加了关于使用 Amazon S3 事件通知加速网络爬取的信息。有关更多信息,请参阅 使用 Amazon S3 事件通知加速网络爬取

2021 年 10 月 15 日

与访问控制和 VPC 相关的其他安全配置选项

添加了关于您如何在 Amazon Glue 上配置新的访问控制权限以及 VPC 配置信息。有关更多信息,请参阅 Amazon Glue 中的 Amazon标签使用条件键或上下文键控制设置的基于身份的策略 (IAM 策略),以及将所有 Amazon 调用配置为通过 VPC 进行

2021 年 10 月 13 日

支持 VPC 终端节点策略

添加了关于支持 Amazon Glue 中的 Virtual Private Cloud (VPC) 端点策略的信息。有关更多信息,请参阅 Amazon Glue 和接口 VPC 终端节点 (Amazon PrivateLink)

2021 年 10 月 11 日

记录了 Amazon Glue 版本支持策略

添加了关于 Amazon Glue 版本支持策略和某些 Amazon Glue 版本的使用寿命结束阶段的信息。有关更多信息,请参阅 Amazon Glue 版本支持策略

2021 年 9 月 24 日

支持 Amazon Glue 交互式会话(私有预览版)

(私有预览版)添加了关于使用 Amazon Glue 交互式会话通过任何 Jupyter 笔记本在云端运行 Spark 工作负载的信息。当您使用 Amazon Glue 2.0 或更高版本时,交互式开发是开发 Amazon Glue 提取、转换和加载 (ETL) 代码的首选方法。有关更多信息,请参阅 为 Jupyter 笔记本设置和运行 Amazon Glue 交互式会话

2021 年 8 月 24 日

支持通过蓝图创建工作流 (GA)

添加了有关在蓝图中对常见提取、转换和加载(ETL)使用案例进行编码和通过蓝图创建工作流的信息。使数据分析人员能够轻松创建和运行复杂的 ETL 进程。有关更多信息,请参阅使用 Amazon Glue 中的蓝图和工作流执行复杂的 ETL 活动

2021 年 8 月 23 日

支持 Amazon Glue 版本 3.0。

添加了有关支持 Amazon Glue 版本 3.0 的信息,该版本支持用于运行 Apache Spark ETL 任务的 Apache Spark 3.0 引擎升级,以及其他优化和升级信息。有关更多信息,请参阅 Amazon Glue 发布说明将 Amazon Glue 任务迁移到 Amazon Glue 版本 3.0。此版本中的其他功能包括 Amazon Glue 随机播放管理器、SIMD 矢量化 CSV 读取器和目录分区谓词。有关更多信息,请参阅使用 Amazon S3 的 Amazon Glue Spark 随机播放管理器Amazon Glue 中的 ETL 输入和输出的格式选项使用目录分区谓词的服务器端筛选

2021 年 8 月 18 日

支持使用 Amazon EventBridge 事件开启工作流

添加了有关 Amazon Glue 如何可以成为事件驱动架构中的事件使用者的信息。有关更多信息,请参阅使用 Amazon EventBridge 事件启动 Amazon Glue 工作流查看启动工作流的 EventBridge 事件

2021 年 7 月 14 日

将 JSON 作为受支持的数据格式添加到 Amazon Glue 架构注册表

添加了有关 JSON 作为受支持的数据格式(除 AVRO 之外)的信息。有关更多信息,请参阅 Amazon Glue 架构注册表

2021 年 6 月 30 日

不使用数据目录表创建 Amazon Glue 串流任务

create_data_frame_from_options Python 函数或 getSource 支持创建直接引用数据流的串流 ETL 任务的 Scala 脚本,无需数据目录表。

2021 年 6 月 15 日

Amazon Glue Machine Learning 转换现支持 Amazon Key Management Service 密钥

在您使用控制台、CLI 或 Amazon Glue API 配置 Amazon Glue Machine Learning 转换时,您都可以指定安全配置或 Amazon KMS 密钥。有关更多信息,请参阅 将数据加密与 Machine Learning 转换结合使用Amazon Glue Machine Learning API

2021 年 6 月 15 日

对 AWSGlueConsoleFullAccess Amazon 托管式策略做出的更新

添加了有关对 AWSGlueConsoleFullAccess Amazon 托管式策略做出的次要更新信息。有关更多信息,请参阅 Amazon Glue 对 Amazon 托管式策略做出的更新

2021 年 6 月 10 日

支持指定用于指示爬网程序输出表位置的值。

添加了有关在配置爬网程序输出时指定表位置的值的信息。有关更多信息,请参阅如何指定表位置

2021 年 6 月 4 日

支持网络爬取 Simple Storage Service (Amazon S3) 数据存储时网络爬取数据集中的示例文件

添加了有关在网络爬取 Amazon S3 时如何网络爬取示例文件的信息。有关更多信息,请参阅爬网程序属性

2021 年 5 月 10 日

支持 Amazon Glue 优化的 Parquet 写入器

添加了有关使用针对 DynamicFrames 所优化的 Amazon Glue Parquet 写入器,来使用 parquet 分类创建和更新表的信息。有关更多信息,请参阅通过 Amazon Glue ETL 任务在数据目录中创建表、更新架构和添加新分区在 Amazon Glue 中的 ETL 输入和输出的格式选项

2021 年 5 月 4 日

支持 Kafka 客户端身份验证密码

添加了有关 Amazon Glue 中的串流 ETL 任务如何支持 Apache Kafka 串流创建器的 SSL 客户端证书身份验证的信息。现在,您可以提供自定义证书,同时定义 Apache Kafka 集群的 Amazon Glue 连接,Amazon Glue 将在该证书进行身份验证时使用该连接。有关更多信息,请参阅 Amazon Glue 连接属性连接 API

2021 年 4 月 28 日

支持在串流 ETL 任务的其他账户中使用来自 Amazon Kinesis Data Streams 的数据

添加了有关创建串流 ETL 任务以在其他账户中使用来自 Amazon Kinesis Data Streams 的数据的信息。有关更多信息,请参阅在 Amazon Glue 中添加串流 ETL 任务

2021 年 3 月 30 日

支持从蓝图创建工作流(公开预览版)

(公开预览版)添加了有关在蓝图中对常见提取、转换和加载(ETL)使用案例进行编码和通过蓝图创建工作流的信息。使数据分析人员能够轻松创建和运行复杂的 ETL 进程。有关更多信息,请参阅使用 Amazon Glue 中的蓝图和工作流执行复杂的 ETL 活动

2021 年 3 月 22 日

支持 Amazon Glue 机器学习转换的列重要指标

添加了有关使用 Amazon Glue 机器学习转换时查看列重要性指标的信息。有关更多信息,请参阅在 Amazon Glue 控制台上使用 Machine Learning 转换

2021 年 2 月 5 日

支持在 Glue 版本 2.0 中运行串流 ETL 任务

添加了有关支持在 Glue 版本 2.0 中运行串流 ETL 任务的信息 有关更多信息,请参阅在 Amazon Glue 中添加串流 ETL 任务

2020 年 12 月 18 日

支持具有有界执行的工作负载分区

添加了有关启用工作负载分区来配置数据集大小或 ETL 任务运行时处理的文件数的上限的信息。有关更多信息,请参阅具有有界执行的工作负载分区

2020 年 11 月 23 日

支持增强型分区管理

添加了有关如何使用新 API 将分区索引添加到现有表/从现有表删除的信息。有关更多信息,请参阅使用分区索引

2020 年 11 月 23 日

支持 Amazon Glue 架构注册表

添加了有关使用 Amazon Glue 架构注册表来集中发现、控制和演变架构的信息。有关更多信息,请参阅 Amazon Glue 架构注册表

2020 年 11 月 19 日

支持串流 ETL 任务中的 Grok 输入格式

添加了有关将 Grok 模式应用于串流源(如日志文件)的信息。有关更多信息,请参阅将 Grok 模式应用于串流源

2020 年 11 月 17 日

支持在 Amazon Glue 控制台将标签添加到工作流

添加了有关使用 Amazon Glue 控制台创建工作流时添加标签的信息。有关更多信息,请参阅使用 Amazon Glue 控制台创建和构建工作流

2020 年 10 月 27 日

支持递增爬网程序运行

添加了有关支持仅爬取自上次运行以来添加的 Amazon S3 文件夹的增量爬网程序运行的信息。有关更多信息,请参阅增量爬网

2020 年 10 月 21 日

支持串流 ETL 数据源的架构检测。支持 Avro 串流 ETL 数据源和自行管理 Kafka

在 Amazon Glue 中的串流提取、转换和加载(ETL)任务现在可以自动检测传入记录的架构,并在每条记录的基础上处理架构更改。现已支持自行管理的 Kafka 数据源。串流 ETL 任务现支持数据源中的 Avro 格式。有关更多信息,请参阅 Amazon Glue 中的串流 ETL定义串流 ETL 任务的任务属性Avro 串流源的注释和限制

2020 年 10 月 7 日

支持网络爬取 MongoDB 和 DocumentDB 数据源

添加了有关支持网络爬取 MongoDB 和 Amazon DocumentDB (with MongoDB compatibility) 数据源的信息。有关更多信息,请参阅定义爬网程序

2020 年 10 月 5 日

支持 FIPS 合规性

添加了有关客户在使用 Amazon Glue 访问数据时需要 FIPS 140-2 验证的加密模块的 FIPS 终端节点的信息。有关更多信息,请参阅 FIPS 合规性

2020 年 9 月 23 日

Amazon Glue Studio 提供了一个易于使用的可视化界面,用于创建和监控任务

现在,您可以使用简单的基于图形的界面来编写移动和转换数据的任务,并可以在 Amazon Glue 中运行。然后,您可以在 Amazon Glue Studio 中使用任务运行控制面板来监控 ETL 执行情况,并确保您的任务按预期运行。有关更多信息,请参阅 Amazon Glue Studio 用户指南

2020 年 9 月 23 日

支持创建表索引来提高查询性能

添加了有关创建表索引来允许您从表中检索分区子集的信息。有关更多信息,请参阅使用分区索引

2020 年 9 月 9 日

支持在 Amazon Glue 版本 2.0 中运行 Apache Spark ETL 任务时减少启动时间。

添加了有关支持 Amazon Glue 版本 2.0 的信息,该版本提供了升级的基础设施,用于运行 Apache Spark ETL 任务,减少了启动时间、更改了日志记录,并支持在任务级别指定其他 Python 模块。有关更多信息,请参阅 Amazon Glue 发布说明运行 Spark ETL 任务,减少启动时间

2020 年 8 月 10 日

支持限制并发工作流运行次数。

添加了有关如何限制特定工作流的并发工作流运行次数的信息。有关更多信息,请参阅使用 Amazon Glue 控制台创建和构建工作流

2020 年 8 月 10 日

支持使用 VPC 终端节点网络爬取 Simple Storage Service (Amazon S3) 数据存储

添加了有关配置仅通过 Amazon Virtual Private Cloud 环境(Amazon VPC)且出于安全、审计或控制目的,才可以访问 Amazon S3 数据存储的信息。有关更多信息,请参阅使用 VPC 终端节点网络爬取 Amazon S3 数据存储

2020 年 8 月 7 日

支持恢复工作流运行

添加了以下相关信息:如何恢复因一个或多个节点(任务或爬网程序)未成功完成而导致斤部分完成的工作流运行。有关更多信息,请参阅修复和恢复工作流运行

2020 年 7 月 27 日

支持在 Amazon Glue Kafka 连接中启用私有 CA 证书。

添加了有关支持在 Amazon Glue Kafka 连接中启用私有 CA 证书的新连接选项的信息。有关更多信息,请参阅 Amazon Glue 中的 ETL 的连接类型和选项Amazon Glue 使用的特殊参数

2020 年 7 月 20 日

支持从其他账户中读取 DynamoDB 数据

添加了有关 Amazon Glue 支持从另一个 Amazon 账户的 DynamoDB 表中读取数据的信息。有关更多信息,请参阅从另一个账户中读取 DynamoDB 数据

2020 年 7 月 17 日

支持 Amazon Glue 版本 1.0 或更高版本中的 DynamoDB 写入器连接

添加了有关支持 DynamoDB 写入器,以及用于 DynamoDB 读取或写入的新连接选项或更新的连接选项的信息。有关更多信息,请参阅 Amazon Glue 中的 ETL 的连接类型和选项

2020 年 7 月 17 日

支持同时使用 Amazon Glue 和 Lake Formation 的资源链接和跨账户访问权限控制

添加了有关称为资源链接的新数据目录对象,以及如何管理借助 Amazon Glue 和 Amazon Lake Formation 跨账户的共享数据目录资源的内容。有关更多信息,请参阅授予跨账户访问权限表资源链接

2020 年 7 月 7 日

在对 DynamoDB 数据存储进行网络爬取时,支持对记录进行采样

添加了有关在对 DynamoDB 数据存储进行网络爬取时可配置的新属性的信息。有关更多信息,请参阅爬网程序属性

2020 年 6 月 12 日

支持停止工作流程运行。

添加了有关如何停止特定工作流程的工作流程运行的信息。有关更多信息,请参阅停止工作流程运行

2020 年 5 月 14 日

支持 Spark 串流 ETL 任务

增加了有关使用流式处理数据源创建提取、转换和加载 (ETL) 任务的信息。有关更多信息,请参阅在 Amazon Glue 中添加串流 ETL 任务

2020 年 4 月 27 日

支持在运行 ETL 任务后在数据目录中创建表、更新架构和添加新分区

添加了有关如何启用创建表、更新架构和添加新分区以在数据目录中查看 ETL 作业结果的信息。有关更多信息,请参阅通过 Amazon Glue ETL 任务在数据目录中创建表、更新架构和添加新分区

2020 年 4 月 2 日

支持在 Amazon Glue 中将 Apache Avro 数据格式的版本指定为 ETL 输入和输出

添加了有关在 Amazon Glue 中将 Apache Avro 数据格式的版本指定为 ETL 输入和输出的信息。默认版本 1.7。您可以使用 version 格式选项指定 Avro 版本 1.8 以启用逻辑读取/写入。有关更多信息,请参阅 Amazon Glue 中 ETL 输入和输出的格式选项

2020 年 3 月 31 日

支持 EMRFS 经 S3 优化的提交程序,用于将 Parquet 数据写入 Simple Storage Service (Amazon S3)

添加了有关如何设置新标志以启用经 EMRFR S3 优化的提交程序在创建或更新 Amazon Glue 任务时将 Parquet 数据写入 Amazon S3 的信息。有关更多信息,请参阅 Amazon Glue 所使用的特殊参数

2020 年 3 月 30 日

支持将机器学习转换为由 Amazon 资源标签管理的资源

添加了有关使用 Amazon 资源标签管理和控制对 Amazon Glue 中的机器学习转换的访问的信息。您可以将 Amazon 资源标签分配给 Amazon Glue 中的任务、触发器、终端节点、爬网程序和机器学习转换。有关更多信息,请参阅 Amazon Glue 中的 Amazon 标签

2020 年 3 月 2 日

支持不可覆盖的任务参数

添加了有关对于特殊作业参数的支持的信息,您无法在触发器中或运行作业时覆盖这些参数。有关更多信息,请参阅在 Amazon Glue 中添加作业

2020 年 2 月 12 日

支持新的转换以在 Simple Storage Service (Amazon S3) 中使用数据集

添加了有关新转换(合并、清除和过渡)和 Amazon S3 存储类排除的信息,以便 Apache Spark 应用程序在 Amazon S3 中使用数据集。有关支持对适用于 Python 的这些转换的更多信息,请参阅 mergeDynamicFrame在 Amazon S3 中使用数据集。对于 Scala,请参阅 mergeDynamicFramesAmazon Glue Scala GlueContext API

2020 年 1 月 16 日

支持使用 ETL 任务中的新分区信息更新数据目录

添加了有关如何对提取、转换和加载 (ETL) 脚本进行编码以使用新的分区信息更新 Amazon Glue Data Catalog 的信息。使用此功能,您不再需要在作业完成后重新运行爬网程序来查看新分区。有关更多信息,请参阅使用新分区更新数据目录

2020 年 1 月 15 日

新教程:使用 SageMaker 笔记本

添加了一个教程,该教程演示如何使用 Amazon SageMaker 笔记本来帮助开发 ETL 和机器学习脚本。请参阅教程:将 Amazon SageMaker 笔记本与您的开发终端节点结合使用

2020 年 1 月 3 日

支持从 MongoDB 和 Amazon DocumentDB(与 MongoDB 兼容)读取数据

添加了有关用于读取和写入 MongoDB 和 Amazon DocumentDB (with MongoDB compatibility) 的新连接类型和连接选项的信息。有关更多信息,请参阅 Amazon Glue 中的 ETL 的连接类型和选项

2019 年 12 月 17 日

各种更正和说明

全文中添加了更正和说明。从“已知问题”一章中删除了条目。添加了指示 Amazon Glue 仅在指定数据目录加密设置和创建安全配置时支持对称客户主密钥 (CMK) 的警告。添加了指明 Amazon Glue 不支持写入 Amazon DynamoDB 的注释。

2019 年 12 月 9 日

支持自定义 JDBC 驱动程序

添加了有关使用 Amazon Glue 本身不支持的 JDBC 驱动程序(例如 MySQL 版本 8 和 Oracle 数据库版本 18)连接到数据源和目标的信息。有关更多信息,请参阅 JDBC 连接类型值

2019 年 11 月 25 日

支持将 SageMaker 笔记本连接到不同的开发终端节点

添加了有关您如何将 SageMaker 笔记本连接到不同的开发终端节点的信息。对用于切换到新的开发终端节点的新控制台操作以及新的 SageMaker IAM 策略的描述进行了更新。有关更多信息,请参阅在 Amazon Glue 控制台上使用笔记本为 Amazon SageMaker 笔记本创建 IAM 策略

2019 年 11 月 21 日

支持机器学习转换的 Amazon Glue 版本

添加了有关在机器学习转换中定义 Amazon Glue 版本的信息,以指示机器学习转换与哪个版本的 Amazon Glue 兼容。有关更多信息,请参阅在 Amazon Glue 控制台上使用 Machine Learning 转换

2019 年 11 月 21 日

支持倒回任务书签

添加了有关将您的作业书签倒回之前的任何作业运行,从而使后续作业运行只再处理已做上标签的作业的信息。描述了允许您在两个书签之间运行作业的 job-bookmark-pause 选项的两个新子选项。有关更多信息,请参阅使用任务书签来跟踪已处理的数据由 Amazon Glue 使用的特殊参数

2019 年 10 月 22 日

支持自定义 JDBC 证书以连接到数据存储

添加了有关 Amazon Glue 支持自定义 JDBC 证书以实现与 Amazon Glue 数据源或目标的 SSL 连接的信息。有关更多信息,请参阅使用 Amazon Glue 控制台上的连接

2019 年 10 月 10 日

支持 Python Wheel

添加了有关 Amazon Glue 支持 wheel 文件(以及 egg 文件)作为 Python shell 任务的依赖项的信息。有关更多信息,请参阅提供您自己的 Python 库

2019 年 9 月 26 日

支持 Amazon Glue 中的开发端点的版本控制

添加了有关在开发终端节点中定义 Glue version 的信息。Glue version 确定 Amazon Glue 支持的 Apache Spark 和 Python 的版本。有关更多信息,请参阅添加开发终端节点

2019 年 9 月 19 日

支持使用 Spark UI 监控 Amazon Glue

添加了有关使用 Apache Spark UI 监控和调试在 Amazon Glue 作业系统上运行的 Amazon Glue ETL 任务以及在 Amazon Glue 开发终端节点上运行的 Spark 应用程序的信息。有关更多信息,请参阅使用 Spark UI 监控 Amazon Glue

2019 年 9 月 19 日

使用公有 Amazon Glue ETL 库,增强了进行本地 ETL 脚本开发的支持

更新了 Amazon Glue ETL 库内容以反映现在支持 Amazon Glue 版本 1.0。有关更多信息,请参阅使用 Amazon Glue ETL 库在本地开发和测试 ETL 脚本

2019 年 9 月 18 日

支持在运行任务时排除 Simple Storage Service (Amazon S3) 存储类

添加了有关在运行从 Amazon S3 中读取文件或分区的 Amazon Glue ETL 任务时排除 Amazon S3 存储类的信息。有关更多信息,请参阅排除 Amazon S3 存储类

2019 年 8 月 29 日

使用公有 Amazon Glue ETL 库,支持进行本地 ETL 脚本开发

添加了有关如何在本地开发和测试 Python 和 Scala ETL 脚本,而无需网络连接的信息。有关更多信息,请参阅使用 Amazon Glue ETL 库在本地开发和测试 ETL 脚本

2019 年 8 月 28 日

已知问题

添加了有关 Amazon Glue 中已知问题的信息。有关更多信息,请参阅 Amazon Glue 的已知问题

2019 年 8 月 28 日

支持 Amazon Glue 中的机器学习转换

添加了有关 Amazon Glue 提供的用以创建自定义转换的机器学习功能的信息。您可以在创建作业时创建这些转换。有关更多信息,请参阅 Amazon Glue 中的 Machine Learning 转换

2019 年 8 月 8 日

支持共享 Amazon Virtual Private Cloud

添加了有关 Amazon Glue 支持共享 Amazon Virtual Private Cloud 的信息。有关更多信息,请参阅共享的 Amazon VPC

2019 年 8 月 6 日

支持 Amazon Glue 中的版本控制

添加了有关在任务属性中定义 Glue version 的信息。Amazon Glue 版本确定 Amazon Glue 支持的 Apache Spark 和 Python 的版本。有关更多信息,请参阅在 Amazon Glue 中添加任务

2019 年 7 月 24 日

支持开发终端节点的其他配置选项

针对具有内存密集型工作负载的开发终端节点,添加了有关配置选项的信息。您现在可以从两个新配置中进行选择,这两个新配置可为每个执行程序提供更多内存。有关更多信息,请参阅在 Amazon Glue 控制台上使用开发终端节点

2019 年 7 月 24 日

支持使用工作流执行提取、传输和加载 (ETL) 活动

添加了以下相关信息:使用称为工作流的新构造来设计可由 Amazon Glue 作为单个实体运行和跟踪的复杂的多任务提取、转换和加载(ETL)活动。有关更多信息,请参阅使用 Amazon Glue 中的工作流执行复杂的 ETL 活动

2019 年 6 月 20 日

支持 Python 外壳任务中的 Python 3.6

增加了在 Python 外壳作业中对 Python 3.6 的支持的相关信息。您可以指定 Python 2.7 或 Python 3.6 作为作业属性。有关更多信息,请参阅在 Amazon Glue 中添加 Python Shell 任务

2019 年 6 月 5 日

支持 virtual private cloud (VPC) 终端节点

添加了有关在 VPC 中通过接口终端节点直接连接到 Amazon Glue 的信息。当您使用 VPC 接口端点时,VPC 与 Amazon Glue 之间的通信完全在 Amazon 网络内安全进行。有关更多信息,请参阅将 Amazon Glue 与接口 VPC 终端节点一起使用

2019 年 6 月 4 日

支持对 Amazon Glue 任务进行实时的连续日志记录。

添加了有关在 CloudWatch 中启用和查看实时 Apache Spark 任务日志的信息,包括驱动程序日志、各个执行程序日志以及 Spark 任务进度栏。有关更多信息,请参阅 Amazon Glue 任务的连续日志记录

2019 年 5 月 28 日

支持将现有数据目录表作为爬网程序源

添加了有关将现有数据目录表的列表指定为爬网程序源的信息。然后,当新数据变为可用时,爬网程序可以检测对表架构的更改、更新表定义并注册新分区。有关更多信息,请参阅爬网程序属性

2019 年 5 月 10 日

对于内存密集型任务支持额外的配置选项

针对具有内存密集型工作负载的 Apache Spark 任务,添加了有关配置选项的信息。您现在可以从两个新配置中进行选择,这两个新配置可为每个执行程序提供更多内存。有关更多信息,请参阅在 Amazon Glue 中添加任务

2019 年 4 月 5 日

支持 CSV 自定义分类器

添加了有关使用自定义 CSV 分类器来推断各种类型的 CSV 数据的架构的信息。有关更多信息,请参阅编写自定义分类器

2019 年 3 月 26 日

支持 Amazon 资源标签

添加了有关使用 Amazon 资源标签来帮助您管理和控制对 Amazon Glue 资源的访问的信息。您可以在 Amazon Glue 中将 Amazon 资源标签分配给任务、触发器、终端节点和爬网程序。有关更多信息,请参阅 Amazon Glue 中的 Amazon 标签

2019 年 3 月 20 日

支持 Spark SQL 任务的数据目录

添加了有关配置您的 Amazon Glue 任务和开发终端节点以使用 Amazon Glue Data Catalog作为外部 Apache Hive 元存储的信息。这允许任务和开发终端节点直接对存储在 Amazon Glue Data Catalog 中的表运行 Apache Spark SQL 查询。有关更多信息,请参阅 Spark SQL 任务的 Amazon Glue Data Catalog 支持

2019 年 3 月 14 日

支持 Python 外壳任务

添加了有关 Python shell 任务和新字段 Maximum capacity (最大容量) 的信息。有关更多信息,请参阅在 Amazon Glue 中添加 Python Shell 任务

2019 年 1 月 18 日

支持数据库和表发生更改时的通知

添加了有关为数据库、表和分区 API 调用的更改生成的事件的信息。您可以在 CloudWatch Events 中配置操作以响应这些事件。有关更多信息,请参阅使用 CloudWatch Events 自动化 Amazon Glue

2019 年 1 月 16 日

支持加密连接密码

添加了有关加密连接对象中所用密码的信息。有关更多信息,请参阅加密连接密码

2018 年 12 月 11 日

对于资源级权限和基于资源的策略的支持

添加了有关将资源级权限和基于资源的策略用于 Amazon Glue 的信息。有关更多信息,请参阅 Amazon Glue 中的安全性中的主题。

2018 年 10 月 15 日

支持 SageMaker 笔记本

添加了有关将 SageMaker 笔记本用于 Amazon Glue 开发终端节点的信息。有关更多信息,请参阅管理笔记本

2018 年 10 月 5 日

支持加密

添加了有关对 Amazon Glue 使用加密的信息。有关更多信息,请参阅静态加密传输中加密在 Amazon Glue 中设置加密

2018 年 8 月 24 日

Apache Spark 任务指标支持

添加了有关使用 Apache Spark 指标的信息,以便更好地调试和分析 ETL 作业。您可以轻松跟踪运行时指标,例如读取和写入的字节数,驱动程序和执行程序的内存使用率和 CPU 负载,以及来自 Amazon Glue 控制台的执行程序之间的数据随机排序。有关更多信息,请参阅使用 CloudWatch 指标监控 Amazon Glue监控和调试任务以及在 Amazon Glue 控制台上处理任务

2018 年 7 月 13 日

支持将 DynamoDB 作为数据源

添加了有关网络爬取 DynamoDB 以及将其用作 ETL 任务的数据源的信息。有关更多信息,请参阅使用爬网程序编录表连接参数

2018 年 7 月 10 日

更新以创建笔记本服务器过程

更新了有关如何在与开发终端节点相关联的 Amazon EC2 实例上创建笔记本服务器的信息。有关更多信息,请参阅创建与开发终端节点相关联的笔记本服务器

2018 年 7 月 9 日

现在可通过 RSS 更新

您现在可以订阅 RSS 源来接收有关 Amazon Glue 开发人员指南更新的通知。

2018 年 25 月 6 日

支持任务的延迟通知

添加了有关在任务运行时配置延迟阈值的信息。有关更多信息,请参阅在 Amazon Glue 中添加任务

2018 年 5 月 25 日

配置爬网程序以追加新列

添加了有关爬网程序的新配置选项 MergeNewColumns 的信息。有关更多信息,请参阅配置爬网程序

2018 年 5 月 7 日

支持任务超时

添加了有关在任务运行时设置超时阈值的信息。有关更多信息,请参阅在 Amazon Glue 中添加任务

2018 年 4 月 10 日

支持 Scala ETL 脚本并基于其他运行状态触发任务

添加了有关使用 Scala 作为 ETL 编程语言的信息。此外,触发器 API 现在还支持在满足任意条件时触发 (除所有条件之外)。此外,还可以基于“失败”或“已停止”的任务运行触发任务 (除“已成功”的任务运行之外)。

2018 年 1 月 12 日

早期更新

下表描述 2018 年 1 月之前发布的每个 Amazon Glue 开发人员指南中的重要变化。

更改 说明 日期
支持 XML 数据源和新的爬网程序配置选项 添加了有关为分区更改分类 XML 数据源和新爬网程序选项的信息。 2017 年 11 月 16 日
新转换、对其他 Amazon RDS 数据库引擎的支持以及开发终端节点增强功能 添加了有关映射和筛选转换、对 Amazon RDS Microsoft SQL Server 和 Amazon RDS Oracle 的支持以及开发终端节点的新功能的信息。 2017 年 9 月 29 日
Amazon Glue 初始版本 这是 Amazon Glue 开发人员指南的初始版本。 2017 年 8 月 14 日